L1、L2正则的效果

本文主要讲L1、L2正则,首先从直观上展示L1、L2正则,接着展示其梯度的效果。

拟合过程中通常都倾向于让权值尽可能小,即构造一个所有参数都比较小的模型。一般认为参数值小的模型比较简单,能在一定程度上避免过拟合现象,抗扰动能力强,因为若参数很大,只要数据偏移一点点,就会对结果造成很大的影响;而如果参数比较小,数据偏移一点不会对结果造成什么很大的影响。

L1、L2正则的几何效果

直观上通过经验损失项与正则项的等高线来展示L1、L2正则的差异,如下图

彩色线表示经验损失项的等高线,黑线表示正则项的等高线,等高线的值越小,圈的范围越小;等高线的法线方向是梯度方向,经验损失项与正则项的等高线的交点是参数的取值,(按照梯度下降法移动参数)最优点发生在两个等高线最后一次相交的位置(即总的梯度为0的位置,此时损失项和正则项的梯度相反但大小相等,双方拉锯形成平衡),可以看出L1正则的等高线更容易与经验损失项的等高线相交在轴上,也即更容易得到稀疏的解,而L2正则更容易得到小数值的解,即最大的参数值更小(假设正则等高线都是1,那么L2正则下交点的w2比L1正则下交点的w2小;更确切的说,由于L2正则是平方,而L1正则是1次方,L2正则对大数值的惩罚更大)

L1、L2正则的梯度效果

从L1、L2正则的梯度可以看出,根据梯度下降法,

L1正则下的参数更新\theta_i \rightarrow \theta_i - \eta sign(\theta_i),参数有可能为0;

L2正则下的参数更新\theta_i \rightarrow \theta_i - \eta \theta_i = (1-\eta)\theta_i,学习率\eta一般小于1,所以参数每次更新都会乘以一个小数,只能不断接近0而不为0;

所以一般来说,L1正则的解更容易稀疏,而L2正则的解变小的速度更快,更容易形成小数值的解,即抗过拟合能力更强些。

(虽然实际上参数更新是经验损失项的梯度与正则梯度的共同作用,L2正则下的有些参数也是能变成0的,只是一般来说其解的稀疏度不如L1正则。)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章