六、迴歸——套索迴歸 (Lasso Regression)的基本應用

一、使用場合

與嶺迴歸類似,套索 (Least Absolute Shrinkage and Selection Operator) 也會對迴歸係數的絕對值添加一個罰值。此外,它能降低偏差並提高線性迴歸模型的精度。看看下面的等式:

10.png

套索迴歸與嶺迴歸有一點不同,它在懲罰部分使用的是絕對值,而不是平方值。這導致懲罰(即用以約束估計的絕對值之和)值使一些參數估計結果等於零。使用的懲罰值越大,估計值會越趨近於零。這將導致我們要從給定的n個變量之外選擇變量。
要點:
• 除常數項以外,這種迴歸的假設與最小二乘迴歸類似;
• 它將收縮係數縮減至零(等於零),這確實有助於特徵選擇;
• 這是一個正則化方法,使用的是 L1 正則化;
• 如果一組預測因子是高度相關的,套索迴歸會選出其中一個因子並且將其它因子收縮爲零。

二、lasso族的功效

       在建立模型之初,爲了儘量減小因缺少重要自變量而出現的模型偏差,通常會選擇儘可能多的自變量。然而,建模過程需要尋找對因變量最具有強解釋力的自變量集合,也就是通過自變量選擇(指標選擇、字段選擇)來提高模型的解釋性和預測精度。指標選擇在統計建模過程中是極其重要的問題。Lasso算法則是一種能夠實現指標集合精簡的估計方法。

      Lasso(Least absolute shrinkage and selection operator, Tibshirani(1996))方法是一種壓縮估計。它通過構造一個罰函數得到一個較爲精煉的模型,使得它壓縮一些係數,同時設定一些係數爲零。因此保留了子集收縮的優點,是一種處理具有復共線性數據的有偏估計。

      Lasso 的基本思想是在迴歸係數的絕對值之和小於一個常數的約束條件下,使殘差平方和最小化,從而能夠產生某些嚴格等於0 的迴歸係數,得到可以解釋的模型。R的Lars 算法的軟件包提供了Lasso編程,我們根據模型改進的需要,可以給出Lasso算法,並利用AIC準則和BIC準則給統計模型的變量做一個截斷,進而達到降維的目的。因此,我們通過研究Lasso可以將其更好的應用到變量選擇中去。[]

      lasso estimate具有shrinkage和selection兩種功能,shrinkage這個不用多講,本科期間學過迴歸分析的同學應該都知道嶺估計會有shrinkage的功效,lasso也同樣。關於selection功能,Tibshirani提出,當t值小到一定程度的時候,lasso estimate會使得某些迴歸係數的估值是0,這確實是起到了變量選擇的作用。當t不斷增大時,選入迴歸模型的變量會逐漸增多,當t增大到某個值時,所有變量都入選了迴歸模型,這個時候得到的迴歸模型的係數是通常意義下的最小二乘估計。從這個角度上來看,lasso也可以看做是一種逐步迴歸的過程。[]

模型選擇本質上是尋求模型稀疏表達的過程,而這種過程可以通過優化一個“損失”十“懲罰”的函數問題來完成。

三、與普通最小二乘法的區別

 使用最小二乘法擬合的普通線性迴歸是數據建模的基本方法。其建模要點在於誤差項一般要求獨立同分布(常假定爲正態)零均值。t檢驗用來檢驗擬合的模型係數的顯著性,F檢驗用來檢驗模型的顯著性(方差分析)。如果正態性不成立,t檢驗和F檢驗就沒有意義。

對較複雜的數據建模(比如文本分類,圖像去噪或者基因組研究)的時候,普通線性迴歸會有一些問題:

(1)預測精度的問題 如果響應變量和預測變量之間有比較明顯的線性關係,最小二乘迴歸會有很小的偏倚,特別是如果觀測數量n遠大於預測變量p時,最小二乘迴歸也會有較小的方差。但是如果n和p比較接近,則容易產生過擬合;如果n

(2)模型解釋能力的問題 包括在一個多元線性迴歸模型裏的很多變量可能是和響應變量無關的;也有可能產生多重共線性的現象:即多個預測變量之間明顯相關。這些情況都會增加模型的複雜程度,削弱模型的解釋能力。這時候需要進行變量選擇(特徵選擇)。

針對OLS的問題,在變量選擇方面有三種擴展的方法: (1)子集選擇 這是傳統的方法,包括逐步迴歸和最優子集法等,對可能的部分子集擬合線性模型,利用判別準則 (如AIC,BIC,Cp,調整R2 等)決定最優的模型。 (2)收縮方法(shrinkage method) 收縮方法又稱爲正則化(regularization)。主要是嶺迴歸(ridge regression)和lasso迴歸。通過對最小二乘估計加入罰約束,使某些係數的估計爲0。 (3)維數縮減 主成分迴歸(PCR)和偏最小二乘迴歸(PLS)的方法。把p個預測變量投影到m維空間(m

四、嶺迴歸、lasso迴歸和elastic net三種正則化方法

1.嶺迴歸

最小二乘估計是最小化殘差平方和(RSS):

嶺迴歸在最小化RSS的計算里加入了一個收縮懲罰項(正則化的l2範數)

這個懲罰項中lambda大於等於0,是個調整參數。各個待估係數越小則懲罰項越小,因此懲罰項的加入有利於縮減待估參數接近於0。重點在於lambda的確定,可以使用交叉驗證或者Cp準則。

嶺迴歸優於最小二乘迴歸的原因在於方差-偏倚選擇。隨着lambda的增大,模型方差減小而偏倚(輕微的)增加。

嶺迴歸的一個缺點:在建模時,同時引入p個預測變量,罰約束項可以收縮這些預測變量的待估係數接近0,但並非恰好是0(除非lambda爲無窮大)。這個缺點對於模型精度影響不大,但給模型的解釋造成了困難。這個缺點可以由lasso來克服。(所以嶺迴歸雖然減少了模型的複雜度,並沒有真正解決變量選擇的問題)

2、lasso

lasso是在RSS最小化的計算中加入一個l1範數作爲罰約束:

l1範數的好處是當lambda充分大時可以把某些待估係數精確地收縮到0。

關於嶺迴歸和lasso當然也可以把它們看做一個以RSS爲目標函數,以懲罰項爲約束的優化問題。

3、調整參數lambda的確定

交叉驗證法。對lambda的格點值,進行交叉驗證,選取交叉驗證誤差最小的lambda值。最後,按照得到的lambda值,用全部數據重新擬合模型即可。

4、elastic net

elastic net融合了l1範數和l2範數兩種正則化的方法,上面的嶺迴歸和lasso迴歸都可以看做它的特例:

elastic net對於p遠大於n,或者嚴重的多重共線性情況有明顯的效果。 對於elastic net,當alpha接近1時,elastic net表現很接近lasso,但去掉了由極端相關引起的退化化或者奇怪的表現。一般來說,elastic net是嶺迴歸和lasso的很好的折中,當alpha從0變化到1,目標函數的稀疏解(係數爲0的情況)也從0單調增加到lasso的稀疏解。

LASSO的進一步擴展是和嶺迴歸相結合,形成Elastic Net方法。[]

5、嶺迴歸與lasso算法

這兩種方法的共同點在於,將解釋變量的係數加入到Cost Function中,並對其進行最小化,本質上是對過多的參數實施了懲罰。而兩種方法的區別在於懲罰函數不同。但這種微小的區別卻使LASSO有很多優良的特質(可以同時選擇和縮減參數)。下面的公式就是在線性模型中兩種方法所對應的目標函數:

公式中的lambda是重要的設置參數,它控制了懲罰的嚴厲程度,如果設置得過大,那麼最後的模型參數均將趨於0,形成擬合不足。如果設置得過小,又會形成擬合過度。所以lambda的取值一般需要通過交叉檢驗來確定。

嶺迴歸的一個缺點:在建模時,同時引入p個預測變量,罰約束項可以收縮這些預測變量的待估係數接近0,但並非恰好是0(除非lambda爲無窮大)。這個缺點對於模型精度影響不大,但給模型的解釋造成了困難。這個缺點可以由lasso來克服。(所以嶺迴歸雖然減少了模型的複雜度,並沒有真正解決變量選擇的問題)

五、LARS算法對lasso的貢獻[]

LAR把Lasso (L1-norm regularization)和Boosting真正的聯繫起來,如同打通了任督二脈。LAR結束了一個晦澀的時代:在LAR之前,有關Sparsity的模型幾乎都是一個黑箱,它們的數學性質(更不要談古典的幾何性質了)幾乎都是缺失。

近年來興起的Compressed sensing(Candes & Tao, Donoho)也與LAR一脈相承,只是更加強調L1-norm regularization其他方面的數學性質,比如Exact Recovery。我覺得這是一個問題的多個方面,Lasso關注的是構建模型的準確性,Compressed sensing關注的是變量選擇的準確性。

六、變量選擇

當我們使用數據訓練分類器的時候,很重要的一點就是要在過度擬合與擬合不足之間達成一個平衡。防止過度擬合的一種方法就是對模型的複雜度進行約束。模型中用到解釋變量的個數是模型複雜度的一種體現。控制解釋變量個數有很多方法,例如變量選擇(feature selection),即用filter或wrapper方法提取解釋變量的最佳子集。或是進行變量構造(feature construction),即將原始變量進行某種映射或轉換,如主成分方法和因子分析。變量選擇的方法是比較“硬”的方法,變量要麼進入模型,要麼不進入模型,只有0-1兩種選擇。但也有“軟”的方法,也就是Regularization類方法,例如嶺迴歸(Ridge Regression)和套索方法(LASSO:least absolute shrinkage and selection operator)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章