L1正則和L2正則的區別詳解

正則化本身是一種參數範數懲罰，即權重衰減。

L2參數正則化

L2參數正則化策略通過向目標函數添加一個正則項 $\Omega(\theta=\frac{1}{2}\Vert w\Vert_{2}^{2})$ ，來使權重更加接近原點。其他學術圈稱L2爲嶺迴歸或者Tikhonov正則。

下圖中 $\tilde{w}$ 即爲增加L2正則項之後所求的參數集， $w^*$ 則是爲加正則項所要求的參數集，進行了特徵分解。

L2正則化能讓學習算法"感知"到具有較高方差的輸入x，因此與輸出目標的協方差較小(相對增加方差)的特徵的權重將會收縮(證明詳見Deep Learning Chapter 7.1.1)。

L1參數正則化

形式化地，L1正則化定義爲：
$\Omega(\theta)=\Vert w \Vert_1 = \sum_i{|w_i|}$

相對於L2正則化，L1正則化會產生更稀疏的解。這裏的稀疏性是指最優值中一些參數爲0，即0更多的參數集。由式子7.23可知， $|w_i^*| < \frac{\alpha}{H_{i,j}}$ ，參數集的i維就被指定成了0，而觀察L2正則的式子7.13，L2正則只是放縮了原參數集的大小，並不能使其爲零。

由於L1正則化導出的稀疏性質已經被廣泛的用於特徵選擇機制。特徵選擇從可用的特徵子集中選擇有意義的特徵，從而化簡機器學習問題。著名的LASSO模型將L1懲罰和線性模型相組合，並使用最小二乘代價函數。如果L1懲罰是的部分子集的權重爲0，則表示相應的特徵可以被安全的忽略。

L2正則化相當於是高斯先驗的MAP貝葉斯推斷；L1正則化等價於通過MAP貝葉斯推斷最大化對數先驗項。

或者從分佈的角度而言：

L1範數符合拉普拉斯分佈，是不完全可微的。表現在圖像上會有很多角出現。這些角和目標函數的接觸機會遠大於其他部分。就會造成最優值出現在座標軸上，因此就會導致某一維的權重爲0 ，產生稀疏權重矩陣，進而防止過擬合。

L2範數符合高斯分佈，是完全可微的。和L1相比，圖像上的棱角被圓滑了很多。一般最優值不會在座標軸上出現。在最小化正則項時，可以是參數不斷趨向於0，最後活的很小的參數。

畫圖表示：
L2正則：
在
在L2正則下，w從P1向P2移動，w減小，L2正則項使參數變小。

L1正則：

在L1正則下，w向w2軸移動，到達w2軸即變爲零，因爲容易稀疏化。

參考

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

L1正則和L2正則的區別詳解

L2參數正則化

L1參數正則化

參考

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

Compute the Optimal Policy & the Optimal Value 計算最佳策略和計算最佳價值

Monte Carlo Tree Search (MCTS) 蒙特·卡羅爾樹搜索

Imitation Learning in Large State Spaces 大規模狀態空間下的模仿學習

注意力機制(Attention Mechanism)

L1正則和L2正則的區別詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結