【轉】最小二乘法與嶺迴歸的介紹與對比

原文:https://blog.csdn.net/dang_boy/article/details/78504258

一 線性迴歸(最小二乘法)

假設我們有n個樣本數據,每個數據有p個特徵值,然後p個特徵值是線性關係。

即對應的線性模型

寫成矩陣的形式即是Y=XA

由於樣本與模型不一定百分百符合,存在一些噪聲,即誤差,用B表示,B也是一個向量

即B=Y-XA

Y爲樣本值,XA爲模型的計算值,即期望值

誤差的平方的計算公式

Xi爲行向量,A爲列向量。

最小二乘法的目標就是取得最小的e對應的A,由於方差的計算是一個二次函數,即拋物線,對應存在一個最小值,即導數爲0對應的A。所以對e求A的偏導數,再使其等於0,求解方程即可以獲得A。

誤差的平方e寫成矩陣形式即爲

對矩陣E取跡(跡就是矩陣對角線上所有元素的累加)且對跡求導後結果爲一個矩陣。

即爲 

展開爲  

求導化簡結果爲

 

當A的維數比Y的維數多,即樣本數量n少於特徵值p的時候存在多個解,可能導致結果很不穩定,所以要確保n>p

 

X矩陣不存在廣義逆(即奇異性)的情況:
1)X本身存在線性相關關係(即多重共線性),即非滿秩矩陣。
當採樣值誤差造成本身線性相關的樣本矩陣仍然可以求出逆陣時,此時的逆陣非常不穩定,所求的解也沒有什麼意義。
2)當變量比樣本多,即p>n時.
這時,迴歸係數會變得很大,無法求解。在統計學上,可證明A的最小二乘解爲無偏估計,即多次得到的採樣值X而計算出來的多個係數估計值向量 的平均值將無限接近於真實值向量β。

 

二 嶺迴歸(Ridge Regression)

 

思路:在原先的A的最小二乘估計中加一個小擾動λI,是原先無法求廣義逆的情況變成可以求出其廣義逆,使得問題穩定並得以求解。

可以看到 變爲滿秩矩陣,可以求穩定的逆。

對應的推導過程如下:

 

上式子寫成矩陣的形式爲

對上式子採用一樣的方式(求A的偏導數=0)可得

嶺迴歸與最小二乘的區別在於這一項,稱之爲正則項,這一項可以看成是對A的各個元素,即各個特徵的權的總體的平衡程度,也就是權之間的方差。

介紹一下誤差(偏差)和方差

偏差bais

預測出來的數據與真實值的差距

方差 variance

預測出來的數據的分散程度

 

在二維的情況下可以這樣來理解

RSS爲誤差

橢圓形拋物面爲這一部分,圓柱形爲這一部分,由最小二乘法求得的解是拋物面的最低點,由嶺迴歸求得的解便是圖中的黃點,一般來說,擬合的誤差值(偏差)越小,A的各個元素(權)的方差越高,所以嶺迴歸是找到一個方差不會太大,誤差也不會太大的一個權衡的點,隨着r增大,方差變大(隨着增大,方差減小)。

 

嶺迴歸性質
1)當嶺參數爲0,得到最小二乘解。
2)當嶺參數λ趨向更大時,嶺迴歸係數A估計趨向於0。
3)嶺迴歸是迴歸參數A的有偏估計。它的結果是使得殘差平和變大,但是會使係數檢驗變好。 
4)在認爲嶺參數λ是與y無關的常數時,是最小二乘估計的一個線性變換,也是y的線性函數。
但在實際應用中,由於λ總是要通過數據確定,因此λ也依賴於y、因此從本質上說,並非的線性變換,也非y的線性函數。
5)對於迴歸係數向量來說,有偏估計迴歸係數向量長度<無偏估計迴歸係數向量長度。


6)存在某一個λ,使得它所對應的的MSE(估計向量的均方誤差)<最小二乘法對應估計向量的的MSE。
即  存在λ>0,使得
 

嶺跡圖
是λ的函數,嶺跡圖的橫座標爲λ,縱座標爲A(λ)。而A(λ)是一個向量,由a1(λ)、a2(λ)、...等很多分量組成,每一個分量都是λ的函數,將每一個分量分別用一條線。
當不存在奇異性時,嶺跡應是穩定地逐漸趨向於0

 

嶺跡圖作用:
1)觀察λ較佳取值;
2)觀察變量是否有多重共線性;

在λ很小時,A很大,且不穩定,當λ增大到一定程度時,A係數迅速縮小,趨於穩定。

λ的選擇:一般通過觀察,選取喇叭口附近的值,此時各β值已趨於穩定,但總的RSS又不是很大。
選擇變量:刪除那些β取值一直趨於0的變量。

 


嶺參數的一般選擇原則
選擇λ值,使到
1)各回歸係數的嶺估計基本穩定;
2)用最小二乘估計時符號不合理的迴歸係數,其嶺估計的符號變得合理;
3)迴歸係數沒有不合乎實際意義的值;
4)殘差平方和增大不太多。 一般λ越大,係數β會出現穩定的假象,但是殘差平方和也會更大。



取λ的方法比較多,但是結果差異較大。這是嶺迴歸的弱點之一。

嶺迴歸選擇變量的原則(不靠譜,僅供參考)
1)在嶺迴歸中設計矩陣X已經中心化和標準化了,這樣可以直接比較標準化嶺迴歸係數的大小。可以剔除掉標準化嶺迴歸係數比較穩定且值很小的自變量。
2)隨着λ的增加,迴歸係數不穩定,震動趨於零的自變量也可以剔除。
3)如果依照上述去掉變量的原則,有若干個迴歸係數不穩定,究竟去掉幾個,去掉哪幾個,這無一般原則可循,這需根據去掉某個變量後重新進行嶺迴歸分析的效果來確定。

 

三 LASSO迴歸

LASSO迴歸和嶺迴歸的區別只在於正則項不同

兩者的區別對應到圖形上則是

圖片中的黑色粗線,即爲一個底面爲正方形的柱體與拋物面的交點

從投影圖看則更加的直觀,lasso更容易產生解爲0的情況,可以起到篩選變量的目的。

 

參考鏈接

http://f.dataguru.cn/thread-598486-1-1.html

http://blog.csdn.net/google19890102/article/details/27228279

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章