線性迴歸

1.迴歸指的是連續性問題,線性只的是直線。

f(x) = \theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}=\sum_{i=0}^{n}\theta _{i}x_{i}=\theta ^{T}x

目標函數:J(\theta )=\frac{1}{2}\sum (h_{\theta }(x^{i})-y^{i})^{2},要使這個值最小

實際y^{i} = \theta ^{T} x^{i} + \epsilon ^{i},其中根據中心極限定理,猜測\epsilon符合高斯分佈。

p_{i}(x) = \frac{1}{\sqrt{2\pi \sigma }}exp(- \frac{\epsilon^{2}}{2\sigma^{2}}) ,再用極大似然法,L(\theta )= \prod \frac{1}{\sqrt{2\pi \sigma }}exp(-\frac{(\epsilon ^{i})^{2}}{2\sigma ^{2}}),再取對數log(L(\theta )) = \sum log\frac{1}{\sqrt{2\pi \sigma }}exp(-\frac{(\epsilon )^{2}}{2\sigma ^{2}})= mlog\frac{1}{\sqrt{2\pi \sigma }}-\frac{1}{2\sigma ^{2}}\sum (y^{i}-\theta ^{T}x^{i})^{2},再求導數爲0,

得到\theta = (X^{T}X)^{-1}X^{T}y,如果不可逆,則加一個擾動,\theta =(X^{T}X+\lambda I)^{-1}X^{T}y

2.梯度下降法

J是個凸函數,隨機初始化,沿着梯度方向下降,不斷迭代知道得到最優值(或者迭代相鄰值在一定範圍內)。

\theta _{j}:=\theta _{j}+\alpha \sum (y^{i}-h_{\theta }x^{i})x_{i}^{j}

如果是批處理,則樣本是從第一個取到第m個取到所有樣本;因爲有的時候樣本很多,實際情況中常常是給定一個不那麼多的隨機樣本來處理,但這種方法有可能會收斂到一定範圍內來回震動;也有將若干個樣本的梯度作爲更新方向來做的。

3.局部加權線性迴歸

有的時候需要求的不是直線,而可能是二次曲線。則可以把二次曲線看成是若干條直線的組成,對小範圍內的點先進行直線擬合,並對其他不在這個範圍的點給一個權值,離的近的則權值可能大些,離得遠的則權值可能小些。則局部加權線性迴歸可以這樣表示:\sum w^{i}(y^{i}-\theta ^{T}x^{i})^{2} ,其中w可以爲高斯核,也可以爲多項式核等其他表示形式。這種爲非參數學習方法。

4.Logistic迴歸參數估計

g(z)= \frac{1}{1+e^{-z}}h_{\theta }x=g(\theta ^{T}x)=\frac{1}{1-\theta ^{T}x}爲0的時候值爲0.5,大於0大於0.5,小於0小於0.5,可以分爲兩類

p(y=1)=h_{\theta }x ,p(y=0) = 1-h_{\theta }x,這兩個式子可以寫成一個p =(h_{\theta }x)^{y}(1-h_{\theta }x)^{1-y} 再根據最大似然法求導,得到(y-h_{\theta }x)x_{j},再用參數迭代,梯度下降得到\theta _{j}:=\theta _{j}+\alpha \sum (y^{i}-h_{\theta }x^{i})x_{i}^{j},與線性迴歸相比,形式都是一樣的,

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章