機器學習[L1和L2正則化]

原理:

模型越複雜,越容易過擬合。

因此,原先以最小化損失(經驗風險最小化)爲目標:

現在以最小化損失和模型複雜度(結構風險最小化)爲目標:

通過降低複雜模型的複雜度來防止過擬合的規則稱爲正則化。

 

特點:

L0:計算非零個數,用於產生稀疏性,但是在實際研究中很少用,因爲L0範數很難優化求解,是一個NP-hard問題,因此更多情況下我們是使用L1範數
L1:計算絕對值之和,用以產生稀疏性,因爲它是L0範式的一個最優凸近似,容易優化求解
L2:計算平方和再開根號,L2範數更多是防止過擬合,並且讓優化求解變得穩定很快速(這是因爲加入了L2範式之後,滿足了強凸)。

L2 Norm對大數的懲罰比小數大! 因爲使用L2 Norm求出來的解是比較均勻的,而L1 Norm常常產生稀疏解。

實踐中,根據Quaro的data scientist Xavier Amatriain 的經驗,實際應用過程中,L1 nrom幾乎沒有比L2 norm表現好的時候,優先使用L2 norm是比較好的選擇。

 

參考:

1. 【一看就懂】機器學習之L1和L2正則化

2. l1正則與l2正則的特點是什麼,各有什麼優勢?

3. 正則化方法:L1和L2 regularization、數據集擴增、dropout

4. 【通俗易懂】機器學習中 L1 和 L2 正則化的直觀解釋

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章