更多專業的人工智能相關文章,微信搜索 : robot-learner , 或掃碼
模型的參數空間過大可能導致過擬合,而Lasso和Ridge迴歸模型則是在線性迴歸模型的基礎上,通過正則規則增加了對參數的限制,從而達到參數稀疏化和減小過擬合的效果。
兩種迴歸模型分別對應的損失函數優化方法如下:
二者的區別是,Ridge迴歸算法的限制項是L2範數,而Lasso迴歸的限制條件是L1範數。根據優化過程的對等性,上面所列的有限制的優化過程其實等同於下面的優化過程:
可以看出,我們引進了了懲罰係數λ,從而使得有限制的優化過程簡單化。
在最小化上式的過程中,由於懲罰項的存在,λ越大,迴歸算法的係數越會被限制。而兩種迴歸算法的區別在於:
Ridge迴歸中,參數只是不斷接近於0,但是Lasso迴歸中,部分參數會完全被限制爲0。這個優化過程可以用下圖表示:
上面的示意圖反映了在Lasso (左圖)和Ridge (右圖)迴歸中的參數最小化的不同情況。 在左圖中,β1被Lasso迴歸限制爲0,但在右圖中, β1和β2都變得很小但仍然無完全爲0。由於Lasso迴歸的這一特性,在需要得到比較稀疏的係數時候Lasso更爲常用。
比如下圖反映了,在Lasso迴歸中不斷調節λ係數的大小,可以達到不同的參數稀疏化程度。
上圖中,橫座標爲λ係數的大小, 縱座標爲某個優化方程的各個β係數隨着λ係數變化而變化情況。可以看出,假設我們做許多的優化實驗,每次實驗中,λ係數不斷變大,則爲0的β係數越來越多。當λ係數大到一定程度,所有的β係數都爲0。