統計學習三要素------《統計學習方法》讀書筆記

名詞解釋
1. 輸入空間:所有輸入可能取值的集合,{X };
2. 輸出空間:所有輸出可能取值的集合,{Y };
3. 假設空間:由輸入空間到輸出空間的所有可能的映射的集合,
      可以爲決策函數的集合:F={f|Y=f(x)} ,或條件概率的集合:F={P|P(Y|X)}


統計學習的三要素爲:模型,策略,方法。

1.模型

在監督學習中,模型是所要學習的條件概率分佈Py|x 或決策函數 y=f(x) 。在假設空間中,模型有無窮多個。

2.策略

策略是指如何在假設空間的無窮多個模型中選取最優模型,這裏的“最優”就引出瞭如何評價模型的好壞的問題。
損失函數(loss function):L(Y,f(X)) ,損失函數用於度量模型一次預測的好壞。
風險函數(risk function):Rexp(f)=Ep[L(Y,f(X))]=x×yL(y,f(x))P(x,y)dxdy ,用於度量平均意義下模型的好壞。風險函數爲損失函數的期望(expected loss),但是這僅僅是理論上的定義。實際上,由於PX,Y 不可知,多采用經驗風險(empirical loss): Remp=1Ni=1NL(yi,f(xi)) 來代替,即求出訓練樣本集中損失函數的平均值。


兩個基本策略:
當樣本數量N趨於無窮大時, Remp 趨近於 Rexp ,但實際情況中樣本數量都是有限的,因此需採用一定的策略對經驗風險 Remp 進行校正。

2.1 經驗風險最小化(ERM)
在假設空間、損失函數和訓練數據集確定的情況下,經驗風險 Remp 函數式可以確定,可以採用經驗風險最小化策略進行問題的求解:

fFmin1Ni=1NL(yi,f(xi))

例如極大似然估計就是經驗風險最小化的例子。但是當樣本數量太少時,容易出現“過擬合(over-fitting)”的問題。
2.2 結構風險最小化(SRM)
結構風險在經驗風險後加入正則化項(regularizer)或罰項(penalty term),用於限制模型的複雜程度,防止過度複雜的模型產生的過擬合問題。表達式如下:
fFmin1Ni=1NL(yi,f(xi))+λJ(f)

3. 算法

以上兩步確定了模型的優化策略,最後剩下的就是如何求解的問題,即採用什麼樣的算法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章