正則化本身是一種參數範數懲罰,即權重衰減。
L2參數正則化
L2參數正則化策略通過向目標函數添加一個正則項,來使權重更加接近原點。其他學術圈稱L2爲嶺迴歸或者Tikhonov正則。
下圖中即爲增加L2正則項之後所求的參數集,則是爲加正則項所要求的參數集,進行了特徵分解。
L2正則化能讓學習算法"感知"到具有較高方差的輸入x,因此與輸出目標的協方差較小(相對增加方差)的特徵的權重將會收縮(證明詳見Deep Learning Chapter 7.1.1)。
L1參數正則化
形式化地,L1正則化定義爲:
相對於L2正則化,L1正則化會產生更稀疏的解。這裏的稀疏性是指最優值中一些參數爲0,即0更多的參數集。由式子7.23可知,,參數集的i維就被指定成了0,而觀察L2正則的式子7.13,L2正則只是放縮了原參數集的大小,並不能使其爲零。
由於L1正則化導出的稀疏性質已經被廣泛的用於特徵選擇機制。特徵選擇從可用的特徵子集中選擇有意義的特徵,從而化簡機器學習問題。著名的LASSO模型將L1懲罰和線性模型相組合,並使用最小二乘代價函數。如果L1懲罰是的部分子集的權重爲0,則表示相應的特徵可以被安全的忽略。
L2正則化相當於是高斯先驗的MAP貝葉斯推斷;L1正則化等價於通過MAP貝葉斯推斷最大化對數先驗項。
或者從分佈的角度而言:
L1範數符合拉普拉斯分佈,是不完全可微的。表現在圖像上會有很多角出現。這些角和目標函數的接觸機會遠大於其他部分。就會造成最優值出現在座標軸上,因此就會導致某一維的權重爲0 ,產生稀疏權重矩陣,進而防止過擬合。
L2範數符合高斯分佈,是完全可微的。和L1相比,圖像上的棱角被圓滑了很多。一般最優值不會在座標軸上出現。在最小化正則項時,可以是參數不斷趨向於0,最後活的很小的參數。
畫圖表示:
L2正則:
在
在L2正則下,w從P1向P2移動,w減小,L2正則項使參數變小。
L1正則:
在L1正則下,w向w2軸移動,到達w2軸即變爲零,因爲容易稀疏化。
參考
- Deep Learning Chapter 7.1.1 & 7.1.2
- 正則項L1和L2的區別
- 比較全面的L1和L2正則化的解釋