1. 統計學習方法概論

統計學習方法

定義
如果一個系統能夠通過執行某個過程改進它的性能, 這就是學習

對象
數據(data), 從數據出發, 提取數據的特徵, 抽象出數據的模型, 發現數據中的知識, 最終回到對數據的分析與預測中去.

前提
具有某種共同性質的數據, 其具有一定的統計規律性

分類
監督學習, 非監督學習, 半監督學習, 強化學習

基本概念

輸入空間: 輸入所有可能的取值集合
輸出空間: 輸出所有可能的取值集合
特徵空間: 每個具體的輸入是一個實例, 通常由特徵向量表示. 所有特徵向量存在的空間

監督學習產生的最終模型可以是概率模型或非概率模型
概率模型由條件概率分佈P(Y|X)表示
非概率模型由決策函數Y=f(X)表示

常用損失函數


  1. 0-1損失函數L(Y,f(X))=1(Yf(X)),0(Y=f(X))
  2. 平方損失函數L(Y,f(X))=(Yf(X))2
  3. 絕對損失函數L(Y,f(X))=|Yf(X)|
  4. 對數損失函數L(Y,P(Y|X))=logP(Y|X)

對數損失函數用於概率模型中
損失函數值越小, 模型就越好. 模型輸入輸出(X,Y)都是隨機變量, 遵循聯合分佈P(X,Y)
損失函數的期望:

Rexp(f)=E[L(Y,f(X))]=(x,y)L(Y,f(x))P(x,y)dxdy

或者
x=1y=1(L(y,f(x))P(x,y))

以上損失也稱爲期望損失, 記爲Rexp

給定一個訓練數據集, 模型f(X)關於訓練數據集的平均損失稱爲經驗損失, 記爲Remp

期望風險是模型關於聯合分佈的期望損失, 經驗風險是模型關於訓練樣本集的平均損失.
當樣本容量N趨於無窮時, 經驗風險趨於期望風險.

監督學習的基本策略

經驗風險最小化ERM

經驗風險最小的模型就是最優模型, 經驗風險最小化求最優模型就是求解最優化問題
當樣本容量小時, 容易產生過擬合現象

結構風險最小化SRM

正則化. 在經驗風險上加上表示模型複雜度的正則化項.

Rsrm(f)=1Ni=1NL(yi,f(xi))+λJ(f)

J(f)表示模型的複雜度, 模型f越複雜, J(f)就越大; f越簡單, J(f)就越小. 複雜度表示了對複雜模型的懲罰. λ0 是係數, 用以權衡經驗風險和模型複雜度.

過擬合

當模型的複雜度增大時, 訓練誤差會逐漸減小並趨於0; 而測試誤差會先減小, 達到最小值後又增大.
當選擇的模型複雜度過大時, 過擬合現象就會發生.

正則化

正則化等價於結構風險最小化策略的實現, 在經驗風險上加一個正則化項或罰項.
正則化項一般是模型複雜度的單調遞增函數

交叉驗證

簡單交叉驗證

隨機的將數據分爲兩部分, 訓練集和測試集. 用訓練集在各種條件下訓練模型, 在測試集上評估各個模型的測試誤差

S折交叉驗證

隨機的將數據集切分爲S個互不相交的大小相同的子集, 其中的S-1個子集作爲訓練集, 餘下的作爲測試集; 將這一過程對可能的S種選擇重複進行.

留一交叉驗證

S折的特殊情況, 取S=N(數據集的容量)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章