L1正則和L2正則對網絡參數的影響

一、正則化的來源

        在深度網絡的訓練中,參數如果沒有一個”正則化”的限制,很可能會導致過擬合(容易過大或過小),因此在制定損失函數時,往往加入對參數的約束,這就是正則化,通常的正則化有L1正則,L2正則或者兩者的搭配權重使用。無論是L1還是L2正則,都有着把參數量變小的效果,但是L1正則由於函數圖像的特殊性,導致了一種稀疏化的特性,便於選擇特徵。

 

二、L1正則的稀疏化選擇特性

我們知道,L1正則將絕對值函數作爲正則化的約束,那麼如圖所示:

 

加入了L1正則的損失函數定義爲\delta =f(x)_{loss}+\left \| W \right \|_{1},將損失函數看成兩個部分,想要同時減少兩個部分,考慮極限情況,這兩個屬於互相對抗的損失,在某個點一定可以找到兩者的平衡點,由於L1正則函數的尖銳,並且所有尖銳點處於座標軸上,因此有更大的概率形成稀疏化。

反觀L2就很可能在其他點找到平衡,最後造成都是一些很小的但是不會變成0的參數。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章