線性迴歸

線性迴歸

1.迴歸指的是連續性問題，線性只的是直線。

$f(x) = \theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}=\sum_{i=0}^{n}\theta _{i}x_{i}=\theta ^{T}x$

目標函數： $J(\theta )=\frac{1}{2}\sum (h_{\theta }(x^{i})-y^{i})^{2}$ ，要使這個值最小

實際 $y^{i} = \theta ^{T} x^{i} + \epsilon ^{i}$ ，其中根據中心極限定理，猜測 $\epsilon$ 符合高斯分佈。

則 $p_{i}(x) = \frac{1}{\sqrt{2\pi \sigma }}exp(- \frac{\epsilon^{2}}{2\sigma^{2}})$ ,再用極大似然法， $L(\theta )= \prod \frac{1}{\sqrt{2\pi \sigma }}exp(-\frac{(\epsilon ^{i})^{2}}{2\sigma ^{2}})$ ，再取對數 $log(L(\theta )) = \sum log\frac{1}{\sqrt{2\pi \sigma }}exp(-\frac{(\epsilon )^{2}}{2\sigma ^{2}})$ $= mlog\frac{1}{\sqrt{2\pi \sigma }}-\frac{1}{2\sigma ^{2}}\sum (y^{i}-\theta ^{T}x^{i})^{2}$ ，再求導數爲0,

得到 $\theta = (X^{T}X)^{-1}X^{T}y$ ，如果不可逆，則加一個擾動， $\theta =(X^{T}X+\lambda I)^{-1}X^{T}y$ 。

2.梯度下降法

J是個凸函數，隨機初始化，沿着梯度方向下降，不斷迭代知道得到最優值（或者迭代相鄰值在一定範圍內）。

$\theta _{j}:=\theta _{j}+\alpha \sum (y^{i}-h_{\theta }x^{i})x_{i}^{j}$

如果是批處理，則樣本是從第一個取到第m個取到所有樣本；因爲有的時候樣本很多，實際情況中常常是給定一個不那麼多的隨機樣本來處理，但這種方法有可能會收斂到一定範圍內來回震動；也有將若干個樣本的梯度作爲更新方向來做的。

3.局部加權線性迴歸

有的時候需要求的不是直線，而可能是二次曲線。則可以把二次曲線看成是若干條直線的組成，對小範圍內的點先進行直線擬合，並對其他不在這個範圍的點給一個權值，離的近的則權值可能大些，離得遠的則權值可能小些。則局部加權線性迴歸可以這樣表示： $\sum w^{i}(y^{i}-\theta ^{T}x^{i})^{2}$ ，其中w可以爲高斯核，也可以爲多項式核等其他表示形式。這種爲非參數學習方法。

4.Logistic迴歸參數估計

$g(z)= \frac{1}{1+e^{-z}}$ ， $h_{\theta }x=g(\theta ^{T}x)=\frac{1}{1-\theta ^{T}x}$ 爲0的時候值爲0.5，大於0大於0.5，小於0小於0.5，可以分爲兩類

$p(y=1)=h_{\theta }x$ ， $p(y=0) = 1-h_{\theta }x$ ，這兩個式子可以寫成一個 $p =(h_{\theta }x)^{y}(1-h_{\theta }x)^{1-y}$ 再根據最大似然法求導，得到 $(y-h_{\theta }x)x_{j}$ ，再用參數迭代，梯度下降得到 $\theta _{j}:=\theta _{j}+\alpha \sum (y^{i}-h_{\theta }x^{i})x_{i}^{j}$ ，與線性迴歸相比，形式都是一樣的，