統計學習的三板斧

二十世紀九十年代中期,統計學習(Statistic Learning)的出現迅速佔領了機器學習的舞臺。其中代表的是支撐向量機以及更一般的核方法。
其中Vapink大牛提出的統計學習理論爲統計學打下堅實的理論基礎。

李航老師提出的統計學系三要素即:模型+策略+算法。

構建模型

監督學習過程中,模型就是所要學習的條件概率分佈或決策函數。魔性的假設空間包括所有可能的條件概率分佈或決策函數。
這裏假設決策函數是輸入變量的線性函數,把假設空間定義爲決策函數的集合:

F=f|Y=f(X)

也可以寫作

F=f|Y=fθ(x),θ

θ 取值於n 維歐氏空間Rn

策略:

給出了模型的假設空間,接下來考慮以怎樣的準則學習以得到最優的模型。
所以自然引入損失函數的概念,用來衡量預測錯誤的程度。
常用的損失函數有
0-1損失函數

L(Y,f(X))=1,Yf(X)or0,Yf(X)

平方損失函數

L(Y,f(X))(Yf(X))2

絕對損失函數

L(Y,f(X))Yf(X))

對數損失函數

L(Y,P(Y|X))logP(Y|X)

在這裏,有必要區分一下經驗風險與結構風險的概念。
把模型f(X)關於訓練數據集的平均損失稱爲經驗風險,記爲:

Remp(f)=1NNi=1L(yi,f(xi))

最終轉爲求最優化問題:

Min:Remp(f)=1NNi=1L(yi,f(xi))

在樣本容量足夠大的時候,經驗風險最小化能得到較好的學習效果。

當樣本容量較小時,往往採用結構風險最小化,其目的是爲了防止樣本量不大的條件下容易發生的過擬合的問題,通過加上正則化項來防止過擬合問題,可以定義爲

Rerm(f)=1NNi=1L(yi,f(xi)+λJ(f))

其中J(f)爲模型的複雜度,表示對複雜模型的懲罰,λ>=0 是係數,用以權衡經驗風險和模型複雜度。

算法:

我們根據學習策略,從假設空間中選擇最優模型,最後基本可以轉爲最優化問題,考慮採用具體的算法求解。
目前對複雜優化問題的求解,依然是制約機器學習領域發展的瓶頸之一。
對優化問題的討論,也會是我接下要研究的重點之一。

參考書目:
《統計學習方法》李航
《機器學習》周志華

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章