統計學習方法
定義
如果一個系統能夠通過執行某個過程改進它的性能, 這就是學習
對象
數據(data), 從數據出發, 提取數據的特徵, 抽象出數據的模型, 發現數據中的知識, 最終回到對數據的分析與預測中去.
前提
具有某種共同性質的數據, 其具有一定的統計規律性
分類
監督學習, 非監督學習, 半監督學習, 強化學習
基本概念
輸入空間: 輸入所有可能的取值集合
輸出空間: 輸出所有可能的取值集合
特徵空間: 每個具體的輸入是一個實例, 通常由特徵向量表示. 所有特徵向量存在的空間
監督學習產生的最終模型可以是概率模型或非概率模型
概率模型由條件概率分佈P(Y|X)表示
非概率模型由決策函數Y=f(X)表示
常用損失函數
- 0-1損失函數
- 平方損失函數
- 絕對損失函數
- 對數損失函數
對數損失函數用於概率模型中
損失函數值越小, 模型就越好. 模型輸入輸出(X,Y)都是隨機變量, 遵循聯合分佈P(X,Y)
損失函數的期望:
或者
以上損失也稱爲期望損失, 記爲
給定一個訓練數據集, 模型f(X)關於訓練數據集的平均損失稱爲經驗損失, 記爲
期望風險是模型關於聯合分佈的期望損失, 經驗風險是模型關於訓練樣本集的平均損失.
當樣本容量N趨於無窮時, 經驗風險趨於期望風險.
監督學習的基本策略
經驗風險最小化ERM
經驗風險最小的模型就是最優模型, 經驗風險最小化求最優模型就是求解最優化問題
當樣本容量小時, 容易產生過擬合現象
結構風險最小化SRM
正則化. 在經驗風險上加上表示模型複雜度的正則化項.
J(f)表示模型的複雜度, 模型f越複雜, J(f)就越大; f越簡單, J(f)就越小. 複雜度表示了對複雜模型的懲罰. 是係數, 用以權衡經驗風險和模型複雜度.
過擬合
當模型的複雜度增大時, 訓練誤差會逐漸減小並趨於0; 而測試誤差會先減小, 達到最小值後又增大.
當選擇的模型複雜度過大時, 過擬合現象就會發生.
正則化
正則化等價於結構風險最小化策略的實現, 在經驗風險上加一個正則化項或罰項.
正則化項一般是模型複雜度的單調遞增函數
交叉驗證
簡單交叉驗證
隨機的將數據分爲兩部分, 訓練集和測試集. 用訓練集在各種條件下訓練模型, 在測試集上評估各個模型的測試誤差
S折交叉驗證
隨機的將數據集切分爲S個互不相交的大小相同的子集, 其中的S-1個子集作爲訓練集, 餘下的作爲測試集; 將這一過程對可能的S種選擇重複進行.
留一交叉驗證
S折的特殊情況, 取S=N(數據集的容量)