L1正則和L2正則的區別詳解

正則化本身是一種參數範數懲罰,即權重衰減。

L2參數正則化

L2參數正則化策略通過向目標函數添加一個正則項Ω(θ=12w22)\Omega(\theta=\frac{1}{2}\Vert w\Vert_{2}^{2}),來使權重更加接近原點。其他學術圈稱L2爲嶺迴歸或者Tikhonov正則。
在這裏插入圖片描述
下圖中w~\tilde{w}即爲增加L2正則項之後所求的參數集,ww^*則是爲加正則項所要求的參數集,進行了特徵分解。
在這裏插入圖片描述
L2正則化能讓學習算法"感知"到具有較高方差的輸入x,因此與輸出目標的協方差較小(相對增加方差)的特徵的權重將會收縮(證明詳見Deep Learning Chapter 7.1.1)。

L1參數正則化

形式化地,L1正則化定義爲:
Ω(θ)=w1=iwi\Omega(\theta)=\Vert w \Vert_1 = \sum_i{|w_i|}

在這裏插入圖片描述
相對於L2正則化,L1正則化會產生更稀疏的解。這裏的稀疏性是指最優值中一些參數爲0,即0更多的參數集。由式子7.23可知,wi<αHi,j|w_i^*| < \frac{\alpha}{H_{i,j}},參數集的i維就被指定成了0,而觀察L2正則的式子7.13,L2正則只是放縮了原參數集的大小,並不能使其爲零。

由於L1正則化導出的稀疏性質已經被廣泛的用於特徵選擇機制。特徵選擇從可用的特徵子集中選擇有意義的特徵,從而化簡機器學習問題。著名的LASSO模型將L1懲罰和線性模型相組合,並使用最小二乘代價函數。如果L1懲罰是的部分子集的權重爲0,則表示相應的特徵可以被安全的忽略。

L2正則化相當於是高斯先驗的MAP貝葉斯推斷;L1正則化等價於通過MAP貝葉斯推斷最大化對數先驗項。

或者從分佈的角度而言:

L1範數符合拉普拉斯分佈,是不完全可微的。表現在圖像上會有很多角出現。這些角和目標函數的接觸機會遠大於其他部分。就會造成最優值出現在座標軸上,因此就會導致某一維的權重爲0 ,產生稀疏權重矩陣,進而防止過擬合。

L2範數符合高斯分佈,是完全可微的。和L1相比,圖像上的棱角被圓滑了很多。一般最優值不會在座標軸上出現。在最小化正則項時,可以是參數不斷趨向於0,最後活的很小的參數。

畫圖表示:
L2正則:
在這裏插入圖片描述
在L2正則下,w從P1向P2移動,w減小,L2正則項使參數變小。

L1正則:
在這裏插入圖片描述
在L1正則下,w向w2軸移動,到達w2軸即變爲零,因爲容易稀疏化。

參考

  1. Deep Learning Chapter 7.1.1 & 7.1.2
  2. 正則項L1和L2的區別
  3. 比較全面的L1和L2正則化的解釋
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章