機器學習算法系列篇9:Lasso 和 Ridge迴歸算法

更多專業的人工智能相關文章,微信搜索  : robot-learner , 或掃碼

 

模型的參數空間過大可能導致過擬合,而Lasso和Ridge迴歸模型則是在線性迴歸模型的基礎上,通過正則規則增加了對參數的限制,從而達到參數稀疏化和減小過擬合的效果。

 

兩種迴歸模型分別對應的損失函數優化方法如下:

 

二者的區別是,Ridge迴歸算法的限制項是L2範數,而Lasso迴歸的限制條件是L1範數。根據優化過程的對等性,上面所列的有限制的優化過程其實等同於下面的優化過程:

 

   

可以看出,我們引進了了懲罰係數λ,從而使得有限制的優化過程簡單化。

 

在最小化上式的過程中,由於懲罰項的存在,λ越大,迴歸算法的係數越會被限制。而兩種迴歸算法的區別在於:

 

Ridge迴歸中,參數只是不斷接近於0,但是Lasso迴歸中,部分參數會完全被限制爲0。這個優化過程可以用下圖表示:

 

上面的示意圖反映了在Lasso (左圖)和Ridge (右圖)迴歸中的參數最小化的不同情況。 在左圖中,β1被Lasso迴歸限制爲0,但在右圖中, β1和β2都變得很小但仍然無完全爲0。由於Lasso迴歸的這一特性,在需要得到比較稀疏的係數時候Lasso更爲常用。

 

比如下圖反映了,在Lasso迴歸中不斷調節λ係數的大小,可以達到不同的參數稀疏化程度。

 

 

上圖中,橫座標爲λ係數的大小, 縱座標爲某個優化方程的各個β係數隨着λ係數變化而變化情況。可以看出,假設我們做許多的優化實驗,每次實驗中,λ係數不斷變大,則爲0的β係數越來越多。當λ係數大到一定程度,所有的β係數都爲0。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章