本文主要講L1、L2正則,首先從直觀上展示L1、L2正則,接着展示其梯度的效果。
擬合過程中通常都傾向於讓權值儘可能小,即構造一個所有參數都比較小的模型。一般認爲參數值小的模型比較簡單,能在一定程度上避免過擬合現象,抗擾動能力強,因爲若參數很大,只要數據偏移一點點,就會對結果造成很大的影響;而如果參數比較小,數據偏移一點不會對結果造成什麼很大的影響。
L1、L2正則的幾何效果
直觀上通過經驗損失項與正則項的等高線來展示L1、L2正則的差異,如下圖
彩色線表示經驗損失項的等高線,黑線表示正則項的等高線,等高線的值越小,圈的範圍越小;等高線的法線方向是梯度方向,經驗損失項與正則項的等高線的交點是參數的取值,(按照梯度下降法移動參數)最優點發生在兩個等高線最後一次相交的位置(即總的梯度爲0的位置,此時損失項和正則項的梯度相反但大小相等,雙方拉鋸形成平衡),可以看出L1正則的等高線更容易與經驗損失項的等高線相交在軸上,也即更容易得到稀疏的解,而L2正則更容易得到小數值的解,即最大的參數值更小(假設正則等高線都是1,那麼L2正則下交點的w2比L1正則下交點的w2小;更確切的說,由於L2正則是平方,而L1正則是1次方,L2正則對大數值的懲罰更大)
L1、L2正則的梯度效果
從L1、L2正則的梯度可以看出,根據梯度下降法,
L1正則下的參數更新,參數有可能爲0;
L2正則下的參數更新,學習率一般小於1,所以參數每次更新都會乘以一個小數,只能不斷接近0而不爲0;
所以一般來說,L1正則的解更容易稀疏,而L2正則的解變小的速度更快,更容易形成小數值的解,即抗過擬合能力更強些。
(雖然實際上參數更新是經驗損失項的梯度與正則梯度的共同作用,L2正則下的有些參數也是能變成0的,只是一般來說其解的稀疏度不如L1正則。)