過擬合的原因:使用的模型過於複雜,根據VC維理論:VC維很高的時候,就容易發生bias很低,但variance很高的情形.
解決過擬合最常用的方法就是regularization, 常用的有:L1正則, L2正則等.L1正則會使得參數稀疏化, L2正則可以起到平滑的作用, 從貝葉斯理論的角度審視下正則化.
從貝葉斯的角度來看, 正則化等價於對模型參數引入先驗分佈.(先驗概率可理解爲統計概率,後驗概率可理解爲條件概率)
一. Linear Regression
我們先看下最原始的Linear Regression:
此處以 http://www.cnblogs.com/ljygoodgoodstudydaydayup/p/6738597.html 爲準
由最大似然估計,
取對數:
即:
這就導出了我們原始的 least-squares 損失函數,但這是在我們對參數 w 沒有加入任何先驗分佈的情況下。在數據維度很高的情況下,我們的模型參數很多,模型複雜度高,容易發生過擬合。這個時候,我們可以對參數 w 引入先驗分佈,降低模型複雜度。
Ridge Regression
我們對參數w引入協方差爲a的零均值高斯先驗.(每一個分量都服從該分佈)
左式有點問題,參數w的高斯先驗項的係數少了個連乘符號
取對數:
等價於:
上式即Ridge Regression.對參數引入高斯先驗等價於L2正則化
ridge regression 並不具有產生稀疏解的能力,也就是說參數並不會真出現很多零。假設我們的預測結果與兩個特徵相關,L2正則傾向於綜合兩者的影響,給影響大的特徵賦予高的權重;而L1正則傾向於選擇影響較大的參數,而捨棄掉影響較小的那個。實際應用中 L2正則表現往往會優於 L1正則,但 L1正則會大大降低我們的計算量。
拉普拉斯分佈:
重複之前的推導過程我們很容易得到:
總結:
正則化參數等價於對參數引入先驗分佈,使得 模型複雜度 變小(縮小解空間),對於噪聲以及 outliers 的魯棒性增強(泛化能力)。整個最優化問題從貝葉斯觀點來看是一種貝葉斯最大後驗估計,其中 正則化項 對應後驗估計中的 先驗信息,損失函數對應後驗估計中的似然函數,兩者的乘積即對應貝葉斯最大後驗估計的形式。
轉自:
https://www.zhihu.com/question/23536142