二十世紀九十年代中期,統計學習(Statistic Learning)的出現迅速佔領了機器學習的舞臺。其中代表的是支撐向量機以及更一般的核方法。
其中Vapink大牛提出的統計學習理論爲統計學打下堅實的理論基礎。
李航老師提出的統計學系三要素即:模型+策略+算法。
構建模型
監督學習過程中,模型就是所要學習的條件概率分佈或決策函數。魔性的假設空間包括所有可能的條件概率分佈或決策函數。
這裏假設決策函數是輸入變量的線性函數,把假設空間定義爲決策函數的集合:
F=f|Y=f(X)
也可以寫作
F=f|Y=fθ(x),θ
策略:
給出了模型的假設空間,接下來考慮以怎樣的準則學習以得到最優的模型。
所以自然引入損失函數的概念,用來衡量預測錯誤的程度。
常用的損失函數有
0-1損失函數
L(Y,f(X))=1,Y≠f(X)or0,Y≡f(X)
平方損失函數
L(Y,f(X))≡(Y−f(X))2
絕對損失函數
L(Y,f(X))≡∣∣Y−f(X))∣∣
對數損失函數
L(Y,P(Y|X))≡−logP(Y|X)
在這裏,有必要區分一下經驗風險與結構風險的概念。
把模型f(X)關於訓練數據集的平均損失稱爲經驗風險,記爲:
Remp(f)=1N∑Ni=1L(yi,f(xi))
最終轉爲求最優化問題:
Min:Remp(f)=1N∑Ni=1L(yi,f(xi))
在樣本容量足夠大的時候,經驗風險最小化能得到較好的學習效果。
當樣本容量較小時,往往採用結構風險最小化,其目的是爲了防止樣本量不大的條件下容易發生的過擬合的問題,通過加上正則化項來防止過擬合問題,可以定義爲
Rerm(f)=1N∑Ni=1L(yi,f(xi)+λJ(f))
其中J(f)爲模型的複雜度,表示對複雜模型的懲罰,
算法:
我們根據學習策略,從假設空間中選擇最優模型,最後基本可以轉爲最優化問題,考慮採用具體的算法求解。
目前對複雜優化問題的求解,依然是制約機器學習領域發展的瓶頸之一。
對優化問題的討論,也會是我接下要研究的重點之一。
參考書目:
《統計學習方法》李航
《機器學習》周志華