機器學習中正則化的理解

http://www.haodaima.net/art/2591450


正則化是結構風險最小化策略的實現,是在經驗風險上加上一個正則項(regularizer)或罰項(penalty  term)。是模型選擇的典型方法。正則化項一般是模型複雜度的單調遞增函數,模型越複雜,正則化值越大。比較常用的正則化項有模型參數向量的範數,1-norm、2-norm


http://images.cnitblog.com/i/616008/201403/241539031399985.png

第1項經驗風險較小的模型可能比較複雜(非零參數多),這是第2項的模型複雜度會較大。正則化的作用是選擇經驗風險與模型複雜度同時較小的模型。

用奧卡姆剃刀原理解釋:在模型選擇時,能夠很好地解釋已知數據並且十分簡單的模型纔是應該選擇的模型。

從貝葉斯估計角度來看:正則項對應於模型的先驗概率,可以假設複雜的模型具有較小的先驗概率,而簡單的模型具有加大的先驗概率。(類似奧卡姆剃刀解釋)

正則化的理解:

正則化就是對最小化經驗誤差函數上加約束,這樣的約束可以解釋爲先驗知識(正則化參數等價於對參數引入先驗分佈)。

約束有引導作用,在優化誤差函數的時候傾向於選擇滿足約束的梯度減少的方向,使最終的解傾向於符合先驗知識(如一般的l-norm先驗,表示原問題更可能是比較簡單的,這樣的優化傾向於產生參數值量級小的解,一般對應於稀疏參數的平滑解)。

同時正則化,解決了逆問題的不適定性,產生的解是存在,唯一同時也依賴於數據的,噪聲對不適定的影響就弱,解就不會過擬合,而且如果先驗(正則化)合適,則解就傾向於是符合真解(更不會過擬合了),即使訓練集中彼此間不相關的樣本數很少。

正則化大概有兩個功能:

1,從模型修正上看,起了一個trade-off作用,用於平衡學習過程中兩個基本量,名字諸如bias-variance、擬合能力-泛化能力、損失函數-推廣能力、經驗風險-結構風險等等;

2,從模型求解上看,正則化提供了一種唯一解的可能,衆所周知,光用最小二乘擬合可能出現無數組解,加個L1或L2正則化項能有唯一解,即不適定性


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章