正則化與數據先驗分佈的關係

原創

RYP_S

2020-06-13 01:35

過擬合的原因：使用的模型過於複雜，根據VC維理論：VC維很高的時候，就容易發生bias很低，但variance很高的情形.

解決過擬合最常用的方法就是regularization, 常用的有：L1正則, L2正則等.L1正則會使得參數稀疏化, L2正則可以起到平滑的作用, 從貝葉斯理論的角度審視下正則化.

從貝葉斯的角度來看, 正則化等價於對模型參數引入先驗分佈.(先驗概率可理解爲統計概率，後驗概率可理解爲條件概率)

一. Linear Regression

我們先看下最原始的Linear Regression:

此處以 http://www.cnblogs.com/ljygoodgoodstudydaydayup/p/6738597.html 爲準

由最大似然估計,

取對數:

即：

這就導出了我們原始的 least-squares 損失函數，但這是在我們對參數 w 沒有加入任何先驗分佈的情況下。在數據維度很高的情況下，我們的模型參數很多，模型複雜度高，容易發生過擬合。這個時候，我們可以對參數 w 引入先驗分佈，降低模型複雜度。

Ridge Regression

我們對參數w引入協方差爲a的零均值高斯先驗.（每一個分量都服從該分佈）

左式有點問題，參數w的高斯先驗項的係數少了個連乘符號

取對數:

等價於:

上式即Ridge Regression.對參數引入高斯先驗等價於L2正則化

ridge regression 並不具有產生稀疏解的能力，也就是說參數並不會真出現很多零。假設我們的預測結果與兩個特徵相關，L2正則傾向於綜合兩者的影響，給影響大的特徵賦予高的權重；而L1正則傾向於選擇影響較大的參數，而捨棄掉影響較小的那個。實際應用中 L2正則表現往往會優於 L1正則，但 L1正則會大大降低我們的計算量。

拉普拉斯分佈：

重複之前的推導過程我們很容易得到：

該問題通常被稱爲 LASSO (least absolute shrinkage and selection operator) 。LASSO 仍然是一個 convex optimization 問題，不具有解析解。它的優良性質是能產生稀疏性，導致 w 中許多項變成零。對參數引入拉普拉斯先驗等價於 L1正則化

總結：

正則化參數等價於對參數引入先驗分佈，使得模型複雜度變小（縮小解空間），對於噪聲以及 outliers 的魯棒性增強（泛化能力）。整個最優化問題從貝葉斯觀點來看是一種貝葉斯最大後驗估計，其中正則化項對應後驗估計中的先驗信息，損失函數對應後驗估計中的似然函數，兩者的乘積即對應貝葉斯最大後驗估計的形式。

轉自：

https://www.zhihu.com/question/23536142

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

正則化與數據先驗分佈的關係

Wireshark 安裝+使用（一）

從單層感知機到LSTM

Generative Model 與 Discriminative Model（一）

機器學習複習——FP Growth

機器學習複習——各類算法優缺點總結

集成學習——Boosting和Bagging

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結