線性迴歸推導整理

記錄一下線性迴歸推導。以後多寫寫博客,多記錄

線性迴歸公式 y=w_0x_0+w_1x_1+...+w_nx_n+b{} 其中,w0爲參數,x0 爲樣本值,b 爲偏執項

可以記爲y = w^Tx+b{}   (1)其中,wT爲轉置矩陣。

預測樣本和真實值之間存在誤差 \left | y-\hat{y} \right | = \varepsilon  其中\varepsilon 爲誤差

對於每個樣本都存在誤差 \varepsilon_i =\hat{y}_i -w^Tx_i    (2)

假設誤差\varepsilon 是服從獨立分佈的,並且服從高斯分佈,則有

p(\varepsilon_i )=\frac{1}{\sqrt{2\pi }\delta }exp(-\frac{\varepsilon_i^2 }{2\delta^2})    (3)

將(2)代入(3)則有條件概率

p\left ( Y=y_i|X=x_i;W=w_i \right )=\frac{1}{\sqrt{2\pi }\delta }exp(-\frac{(\hat{y}_i -w^Tx_i )^2}{2\delta^2})  (4)

在已知條件概率的情況下,可以使用最大似然函數來估計參數,也就說在知道y 和x 的情況下,可以估計w是真實樣本的最大概率是多少。

L(w)=\prod p\left ( Y=y_i|X=x_i;W=w_i \right )=\prod \frac{1}{\sqrt{2\pi }\delta }exp(-\frac{(\hat{y}_i -w^Tx_i )^2}{2\delta^2}) (5)

因爲求累乘很麻煩,因此轉爲求對數

logL(w)=log\prod \frac{1}{\sqrt{2\pi }\delta }exp(-\frac{(\hat{y}_i -w^Tx_i )^2}{2\delta^2})(6)

左邊轉化:

log\sum \frac{1}{\sqrt{2\pi }\delta }exp(-\frac{(\hat{y}_i -w^Tx_i )^2}{2\delta^2})(7)

繼續化簡

\sum log\frac{1}{\sqrt{2\pi }\delta }+\sum log exp(-\frac{(\hat{y}_i -w^Tx_i )^2}{2\delta^2})(8)

下一步:

m*log\frac{1}{\sqrt{2\pi }\delta }+\sum(-\frac{(\hat{y}_i -w^Tx_i )^2}{2\delta^2})(9)

最終化簡爲:

logL(w)=m*log\frac{1}{\sqrt{2\pi }\delta }-\frac{1}{2} \frac{1}{\delta^2}\sum(\hat{y}_i -w^Tx_i )^2(10)

因爲L(w)是概率值,所以應該要求這個概率值越大越好,公式右邊第一項是常數,沒有影響,所以就要求第二項越小越好

因此得到目標函數:

J(w) = \frac{1}{2}\sum(\hat{y}_i -w^Tx_i )^2(11)

爲了讓公式(11)越小越好,因此應該就是求函數的極小值。因爲公式(11)是凸函數,因此求極小值就是求導數爲0的點

將公式(11)展開

(公式打不上去,就去別去扒了一張圖來)

對其求偏導

\frac{\partial J(w)}{\partial w} = \frac{1}{2}\frac{\partial}{\partial w} (y-Xw)^T(y-Xw)(12)

\frac{\partial J(w)}{\partial w} = \frac{1}{2}\frac{\partial}{\partial w} (y^T-w^TX^T)(y-Xw)(13)

對公式(13)化簡整理:

\frac{\partial J(w)}{\partial w} = \frac{1}{2}\frac{\partial}{\partial w} (y^Ty-w^TX^Ty-y^TXw+w^TX^TXw)(14)

對矩陣求偏導,最終得到

\frac{\partial J(w)}{\partial w} =X^TXw-Xy(15)

求偏導等於0的點因此爲

X^TXw=Xy(16)

w=(X^TX)^{-1}Xy

到此求出參數w 與樣本之間的關係。

但這裏

(X^TX)^{-1}不一定可逆,因此就涉及到了使用梯度下降的方式來求解。之後寫關於梯度下降的博客

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章