機器學習中的L0、L1與L2範數

機器學習中的L0、L1和L2範數

一般來說,監督學習一般可以看作最小化下面的目標函數。

ω=argminωiL(yi,f(xi;ω))+λΩ(ω)

其中第一項是我們的誤差函數,第二項是正則化項。
對於第一項Loss函數,如果是Square loss,那就是最小二乘;如果是Hinge Loss,那就是SVM;如果是exp-Loss,那就是Boosting;如果是log-Loss,那就是Logistic Regression了。

L0範數

L0範數是指向量中非0的元素的個數。如果我們用L0範數來規則化一個參數矩陣W的話,就是希望W的大部分元素都是0。但是對L0範數的優化求解問題是NP難問題,計算困難。

L1範數

L1範數是L0範數的最優凸近似,比L0範數更容易優化求解,不僅可以有助於降低模型過擬合,同時相比L2範數更容易獲得稀疏解,實現特徵的自動選擇。它會學習到沒有用的特徵,將這部分特徵的權重置爲0。爲什麼容易獲得稀疏解,可以參見西瓜書P252。當模型是線性模型,正則項是L1正則時,如下目標函數,此時就是嶺迴歸。L1問題的正則化求解可以使用近端梯度下降的方法(PGD)。

minωim(yiωTxi)+λω1

L2範數

L2範數也常被用作避免過擬合的正則項,相比L1正則,它可以使得係數ω 接近於0而不是0。當模型是線性模型,正則項是L2正則時,如下目標函數,此時是Lasso迴歸。

minωim(yiωTxi)+λω22
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章