1.1 統計學習
概念
統計學習(statistical learning)是關於計算機基於數據構建概率統計模型並運用模型對數據進行預測和分析的一門學科,統計學習也成爲統計機器學習(statistical machine learning).
特點
- 統計學習將數據作爲研究對象,是數據驅動的學科
- 統計學習的目的是對數據進行預測和分析
- 統計學習以方法爲中心,統計學習方法構建模型並應用模型進行預測與分析.包括監督學習,非監督學習,半監督學習,強化學習等.
1.2 監督學習
概念
從給定的, 有限的, 用於學習的訓練數據集合出發, 假設數據是獨立同分布產生的; 並且假設要學習的模型屬於某個函數的集合, 稱爲假設空間; 應用某個評價準則, 從假設空間中選取一個最優的模型, 使它對已知訓練數據及未知測試數據在給定的評價準則下有最優的預測;最優模型的選取由算法實現.
形式化圖形
1.3 統計學習三要素
方法 = 模型 + 策略 + 算法
1.4 模型評估與模型選擇
訓練誤差
訓練誤差是模型關於訓練數據集的平均損失
測試誤差
測試誤差是測試數據集的平均損失
泛化能力
通常將學習方法對未知數據的預測能力成爲泛化能力
過擬合
如果一味追求提高訓練數據的預測能力,所選的模型複雜度往往會比真模型更高
訓練誤差和測試誤差與模型複雜度的關係
1.5 正則化與交叉驗證
正則化
正則化是結構風險最小化策略的實現,是在經驗風險上加一個正則化項或罰項.
交叉驗證
將給定的數據進行切分, 將切分的數據集組合爲訓練集和測試集, 在此基礎上反覆地進行訓練, 測試以及模型選擇.
1.6 泛化能力
概念
學習方法的泛化能力是指由該方法學習到的模型對未知數據的預測能力
1.7 生成模型與判別模型
監督學習方法可以分爲
- 生成方法 generative approach.學習聯合概率分佈, 求出條件概率分佈, 作爲預測的模型. 包括樸素貝葉斯法和隱馬爾科夫模型
- 判別方法 discriminative approach.直接學習條件概率分佈. 包括k近鄰法, 感知機, 決策樹, 邏輯斯蒂迴歸模型, 最大熵模型, 支持向量機, 提升方法和條件隨機場等
比較
1 生成方法可以還原出聯合概率分佈, 判別方法則不能; 生成方法的學習收斂速度更快; 當存在隱變量時, 仍可以使用生成方法, 判別方法不能繼續使用.
2 判別方法直接學習條件概率分佈, 學習的準確率更高; 可以對數據進行各種程度上的抽象, 定義特徵並使用特徵, 可以簡化學習問題
1.8 分類問題
概念
監督學習從數據中學習一個分類模型或分類決策函數, 稱爲分類(classifier), 分類器對新的輸入進行輸出的預測(prediction), 稱爲分類(classification).
分類評測指標
混淆矩陣(confusion matrix)
TP 將正類預測爲正類數目
FN 將正類預測爲負類數目
FP 將負類預測爲正類數目
TN 將負類預測爲負類數目
不同的度量值
Precision = TP /(TP + FP) 準確率
正樣本預測結果數 / 被預測爲正的總數Recall = TP /(TP + FN) 召回率
正樣本預測結果數 / 正樣本實際數FPR = FP /(FP + TN)
被預測爲正的負樣本結果數 /負樣本實際數FNR = FN /(TP + FN)
被預測爲負的正樣本結果數 / 正樣本實際數
1.9 標註問題
標註問題的輸入是一個觀察序列, 輸出是一個標記序列或狀態序列.
1.10 迴歸問題
迴歸用於預測輸入變量和輸出變量之間的關係, 特別是當輸入變量的值發生變化時, 輸出變量隨之發生的變化.