正則化與數據先驗分佈的關係

過擬合的原因:使用的模型過於複雜,根據VC維理論:VC維很高的時候,就容易發生bias很低,但variance很高的情形.

解決過擬合最常用的方法就是regularization, 常用的有:L1正則, L2正則等.L1正則會使得參數稀疏化, L2正則可以起到平滑的作用, 從貝葉斯理論的角度審視下正則化.

從貝葉斯的角度來看, 正則化等價於對模型參數引入先驗分佈.(先驗概率可理解爲統計概率,後驗概率可理解爲條件概率)

一. Linear Regression

我們先看下最原始的Linear Regression:

此處以 http://www.cnblogs.com/ljygoodgoodstudydaydayup/p/6738597.html 爲準

由最大似然估計,

 

取對數:

即:

這就導出了我們原始的 least-squares 損失函數,但這是在我們對參數 w 沒有加入任何先驗分佈的情況下。在數據維度很高的情況下,我們的模型參數很多,模型複雜度高,容易發生過擬合。這個時候,我們可以對參數 w 引入先驗分佈,降低模型複雜度。

Ridge Regression

我們對參數w引入協方差爲a的零均值高斯先驗.(每一個分量都服從該分佈)

左式有點問題,參數w的高斯先驗項的係數少了個連乘符號

取對數:

等價於:

上式即Ridge Regression.對參數引入高斯先驗等價於L2正則化

ridge regression 並不具有產生稀疏解的能力,也就是說參數並不會真出現很多零。假設我們的預測結果與兩個特徵相關,L2正則傾向於綜合兩者的影響,給影響大的特徵賦予高的權重而L1正則傾向於選擇影響較大的參數,而捨棄掉影響較小的那個。實際應用中 L2正則表現往往會優於 L1正則, L1正則會大大降低我們的計算量

拉普拉斯分佈

重複之前的推導過程我們很容易得到:

該問題通常被稱爲 LASSO (least absolute shrinkage and selection operator) 。LASSO 仍然是一個 convex optimization 問題,不具有解析解。它的優良性質是能產生稀疏性,導致 w 中許多項變成零。對參數引入拉普拉斯先驗 等價於 L1正則化

總結:

正則化參數等價於對參數引入先驗分佈,使得 模型複雜度 變小(縮小解空間)對於噪聲以及 outliers 的魯棒性增強(泛化能力)。整個最優化問題從貝葉斯觀點來看是一種貝葉斯最大後驗估計,其中 正則化項 對應後驗估計中的 先驗信息,損失函數對應後驗估計中的似然函數,兩者的乘積即對應貝葉斯最大後驗估計的形式。

 

轉自:

https://www.zhihu.com/question/23536142

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章