統計學習的三板斧

原創

Watson Huw

2020-02-23 18:54

二十世紀九十年代中期，統計學習(Statistic Learning)的出現迅速佔領了機器學習的舞臺。其中代表的是支撐向量機以及更一般的核方法。
其中Vapink大牛提出的統計學習理論爲統計學打下堅實的理論基礎。

李航老師提出的統計學系三要素即：模型+策略+算法。

構建模型

監督學習過程中，模型就是所要學習的條件概率分佈或決策函數。魔性的假設空間包括所有可能的條件概率分佈或決策函數。
這裏假設決策函數是輸入變量的線性函數，把假設空間定義爲決策函數的集合：

F=f|Y=f(X)

也可以寫作

F=f|Y=fθ(x),θ

θ 取值於n 維歐氏空間Rn

策略：

給出了模型的假設空間，接下來考慮以怎樣的準則學習以得到最優的模型。
所以自然引入損失函數的概念，用來衡量預測錯誤的程度。
常用的損失函數有
0-1損失函數

L(Y,f(X))=1,Y≠f(X)or0,Y≡f(X)

平方損失函數

L(Y,f(X))≡(Y−f(X))2

絕對損失函數

L(Y,f(X))≡∣∣Y−f(X))∣∣

對數損失函數

L(Y,P(Y|X))≡−logP(Y|X)

在這裏，有必要區分一下經驗風險與結構風險的概念。
把模型f(X)關於訓練數據集的平均損失稱爲經驗風險，記爲：

Remp(f)=1N∑Ni=1L(yi,f(xi))

最終轉爲求最優化問題：

Min:Remp(f)=1N∑Ni=1L(yi,f(xi))

在樣本容量足夠大的時候，經驗風險最小化能得到較好的學習效果。

當樣本容量較小時，往往採用結構風險最小化，其目的是爲了防止樣本量不大的條件下容易發生的過擬合的問題，通過加上正則化項來防止過擬合問題，可以定義爲

Rerm(f)=1N∑Ni=1L(yi,f(xi)+λJ(f))

其中J(f)爲模型的複雜度，表示對複雜模型的懲罰，λ>=0 是係數，用以權衡經驗風險和模型複雜度。

算法：

我們根據學習策略，從假設空間中選擇最優模型，最後基本可以轉爲最優化問題，考慮採用具體的算法求解。
目前對複雜優化問題的求解，依然是制約機器學習領域發展的瓶頸之一。
對優化問題的討論，也會是我接下要研究的重點之一。

參考書目：
《統計學習方法》李航
《機器學習》周志華

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

統計學習的三板斧

構建模型

F=f|Y=f(X)

F=f|Y=fθ(x),θ

策略：

L(Y,f(X))=1,Y≠f(X)or0,Y≡f(X)

L(Y,f(X))≡(Y−f(X))2

L(Y,f(X))≡∣∣Y−f(X))∣∣

L(Y,P(Y|X))≡−logP(Y|X)

Remp(f)=1N∑Ni=1L(yi,f(xi))

Min:Remp(f)=1N∑Ni=1L(yi,f(xi))

Rerm(f)=1N∑Ni=1L(yi,f(xi)+λJ(f))

算法：

統計學習的三板斧

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結