L1、L2正則的效果

本文主要講L1、L2正則,首先從直觀上展示L1、L2正則,接着展示其梯度的效果。

擬合過程中通常都傾向於讓權值儘可能小,即構造一個所有參數都比較小的模型。一般認爲參數值小的模型比較簡單,能在一定程度上避免過擬合現象,抗擾動能力強,因爲若參數很大,只要數據偏移一點點,就會對結果造成很大的影響;而如果參數比較小,數據偏移一點不會對結果造成什麼很大的影響。

L1、L2正則的幾何效果

直觀上通過經驗損失項與正則項的等高線來展示L1、L2正則的差異,如下圖

彩色線表示經驗損失項的等高線,黑線表示正則項的等高線,等高線的值越小,圈的範圍越小;等高線的法線方向是梯度方向,經驗損失項與正則項的等高線的交點是參數的取值,(按照梯度下降法移動參數)最優點發生在兩個等高線最後一次相交的位置(即總的梯度爲0的位置,此時損失項和正則項的梯度相反但大小相等,雙方拉鋸形成平衡),可以看出L1正則的等高線更容易與經驗損失項的等高線相交在軸上,也即更容易得到稀疏的解,而L2正則更容易得到小數值的解,即最大的參數值更小(假設正則等高線都是1,那麼L2正則下交點的w2比L1正則下交點的w2小;更確切的說,由於L2正則是平方,而L1正則是1次方,L2正則對大數值的懲罰更大)

L1、L2正則的梯度效果

從L1、L2正則的梯度可以看出,根據梯度下降法,

L1正則下的參數更新\theta_i \rightarrow \theta_i - \eta sign(\theta_i),參數有可能爲0;

L2正則下的參數更新\theta_i \rightarrow \theta_i - \eta \theta_i = (1-\eta)\theta_i,學習率\eta一般小於1,所以參數每次更新都會乘以一個小數,只能不斷接近0而不爲0;

所以一般來說,L1正則的解更容易稀疏,而L2正則的解變小的速度更快,更容易形成小數值的解,即抗過擬合能力更強些。

(雖然實際上參數更新是經驗損失項的梯度與正則梯度的共同作用,L2正則下的有些參數也是能變成0的,只是一般來說其解的稀疏度不如L1正則。)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章