《統計學習方法》讀書筆記一

原創

Mr_LiShao

2019-06-17 10:26

今天開始學習李航老師的統計學習方法一書，在學習過程中，一些比較重要或值得探討的點會寫成博客，與大家分享或共同討論。

統計學習方法是基於數據構建統計模型從而對數據進行預測與分析。統計學習主要由監督學習（supervised learning）、非監督學習（unsupervised learning）、半監督學習（semi-supervised learning）和強化學習（reinforcement learning）等組成。
統計學習方法三要素：模型（模型的假設空間）、策略（模型選擇的準則）、算法（模型學習的算法）。
監督學習的任務是通過給定的數據的鍵值對學習一個模型，使得模型能夠對任意給定的輸入，對其相應的輸入做出一個好的預測。
1. 在監督學習中，根據輸入輸出變量的不同類型，將預測任務分爲以下幾種：
  1. 迴歸問題：輸入、輸出變量均爲連續變量
  2. 分類問題：輸出變量爲有限個離散變量
  3. 標註問題：輸入變量與輸出變量均爲變量序列
損失函數：又稱代價函數，用來度量預測錯誤的程度。損失函數是f（X）和Y的非負實值函數，記作L（Y，f（X））。
1. 其常見的損失函數有以下幾種。
  1. 0-1損失函數
  2. 平方損失函數
  3. 絕對損失函數
  4. 對數損失函數（對數似然損失函數）
2. 一般來說，損失函數值越小，模型就越好。
3. 損失函數的期望（又稱爲風險函數或期望損失）
  2. 其中，X、Y是隨機變量，P（X，Y）是X與Y的聯合分佈
4. 模型學習的目標就是選擇期望風險最小的模型。
5. 因爲一方面期望風險最小學習模型要用到聯合分佈，而另一反面聯合分佈是未知的，所以監督學習稱爲了一個病態問題。
6. 我們可以使用經驗風險最小化或結構風險最小化來解決病態問題。
  1. 經驗風險最小化
    2. 當樣本容量足夠大時，他能保證很好的學習效果。
    3. 當樣本量較小是，容易產生‘過擬合’現象。
  2. 結構風險最小化
    1. 它是爲了防止過擬合而提出的策略。
    3. 其中J（f）爲模型的複雜度，即f越複雜，J（f）值就越大；λ是係數，大於等於0，用來權衡經驗風險和模型複雜度。
過擬合：指學習時選擇的模型所包含的參數過多，以至於出現這一模型對已知的數據（即訓練集中的數據）預測的很好，但對未知的數據（及測試集中的數據）預測的很差的現象。
1. 使用模型選擇旨在避免過擬合併提高模型的預測能力。
2. 模型選擇時，即要考慮對已知數據的預測能力，而且要考慮對未知數據的預測能力。
3. 常見的模型選擇方法：
  1. 正則化一般是模型複雜度的單調遞增函數，模型越複雜，正則化值就越大。正則化符合奧卡姆剃刀原理：在所有可能選擇的模型中，能夠很好地解釋一直數據並且十分簡單纔是最好的模型，也就是應該選擇的模型。
  2. 交叉驗證：當樣本充足時，隨機將樣本數據切分成三部分，分別是訓練集、驗證集、測試集。
    1. 交叉驗證的基本思想是重複地使用數據；把給定的數據進行切分，將切分的數據集組合爲訓練集和測試集，在此基礎上反覆地進行訓練、測試以及模型選擇。
    2. 簡單交叉驗證：用訓練集在各種條件下訓練模型，從而得到不同的模型；在測試集上評價各個模型的測試誤差，選出測試誤差最小的模型。
    3. S折交叉驗證：隨機將已給數據分爲S個互不相交、大小相同哦的子集；然後利用S-1個子集的數據訓練模型，利用餘下的子集測試模型；將這一過程對可能的S中選擇重複進行；最後選出S次評測中平均測試誤差最小的模型。
    4. 留一交叉驗證：S折交叉驗證的特殊情況，S=n。這種方式常常在數據缺乏的情況下使用。
泛化能力：指由該方法學習到的模型對未知數據的預測能力。用模型對未知數據預測的誤差即泛化誤差。
監督學習從數據中學習一個分類模型或分類決策函數，稱爲分類器。分類器對新的輸入進行輸出的預測稱爲分類。可能的輸出稱爲類。
1. 一般評判一個分類器性能的指標是分類準確率。
2. 二分類問題常用的分類指標是精確率與召回率。
  2. 此外還有F1值，是精確率和召回率的調和均值。
可用於分類問題的模型有：k近鄰法、感知機、樸素貝葉斯法、局冊數、決策列表、邏輯迴歸模型、支持向量機、提升方法、貝葉斯網絡、神經網絡、winnow等。
標註常用的統計學習方法有：隱馬爾可夫模型、條件隨機場。
迴歸問題按照輸入變量的個數，分爲一元迴歸和多元迴歸；按照輸入標量和輸出變量之間關係的類型及模型的類型，分爲線性迴歸和非線性迴歸。迴歸學習最常用的損失函數是平方損失函數，在此情況下，迴歸問題可以由著名的最小二乘法求解。