《統計學習方法》讀書筆記一

今天開始學習李航老師的統計學習方法一書,在學習過程中,一些比較重要或值得探討的點會寫成博客,與大家分享或共同討論。

  1. 統計學習方法是基於數據構建統計模型從而對數據進行預測與分析。統計學習主要由監督學習(supervised learning)、非監督學習(unsupervised learning)、半監督學習(semi-supervised learning)和強化學習(reinforcement learning)等組成。
  2. 統計學習方法三要素:模型(模型的假設空間)、策略(模型選擇的準則)、算法(模型學習的算法)。
  3. 監督學習的任務是通過給定的數據的鍵值對學習一個模型,使得模型能夠對任意給定的輸入,對其相應的輸入做出一個好的預測。
    1. 在監督學習中,根據輸入輸出變量的不同類型,將預測任務分爲以下幾種:
      1. 迴歸問題:輸入、輸出變量均爲連續變量
      2. 分類問題:輸出變量爲有限個離散變量
      3. 標註問題:輸入變量與輸出變量均爲變量序列
  4. 損失函數:又稱代價函數,用來度量預測錯誤的程度。損失函數是f(X)和Y的非負實值函數,記作L(Y,f(X))。
    1. 其常見的損失函數有以下幾種。
      1. 0-1損失函數
      2. 平方損失函數
      3. 絕對損失函數
      4. 對數損失函數(對數似然損失函數)
    2. 一般來說,損失函數值越小,模型就越好。
    3. 損失函數的期望(又稱爲風險函數或期望損失)
      1. 其中,X、Y是隨機變量,P(X,Y)是X與Y的聯合分佈
    4. 模型學習的目標就是選擇期望風險最小的模型。
    5. 因爲一方面期望風險最小學習模型要用到聯合分佈,而另一反面聯合分佈是未知的,所以監督學習稱爲了一個病態問題。
    6. 我們可以使用經驗風險最小化或結構風險最小化來解決病態問題。
      1. 經驗風險最小化
        1. 當樣本容量足夠大時,他能保證很好的學習效果。
        2. 當樣本量較小是,容易產生‘過擬合’現象。
      2. 結構風險最小化
        1. 它是爲了防止過擬合而提出的策略。
        2. 其中J(f)爲模型的複雜度,即f越複雜,J(f)值就越大;λ是係數,大於等於0,用來權衡經驗風險和模型複雜度。
  5. 過擬合:指學習時選擇的模型所包含的參數過多,以至於出現這一模型對已知的數據(即訓練集中的數據)預測的很好,但對未知的數據(及測試集中的數據)預測的很差的現象。
    1. 使用模型選擇旨在避免過擬合併提高模型的預測能力。
    2. 模型選擇時,即要考慮對已知數據的預測能力,而且要考慮對未知數據的預測能力。
    3. 常見的模型選擇方法:
      1. 正則化一般是模型複雜度的單調遞增函數,模型越複雜,正則化值就越大。正則化符合奧卡姆剃刀原理:在所有可能選擇的模型中,能夠很好地解釋一直數據並且十分簡單纔是最好的模型,也就是應該選擇的模型。
      2. 交叉驗證:當樣本充足時,隨機將樣本數據切分成三部分,分別是訓練集、驗證集、測試集。
        1. 交叉驗證的基本思想是重複地使用數據;把給定的數據進行切分,將切分的數據集組合爲訓練集和測試集,在此基礎上反覆地進行訓練、測試以及模型選擇。
        2. 簡單交叉驗證:用訓練集在各種條件下訓練模型,從而得到不同的模型;在測試集上評價各個模型的測試誤差,選出測試誤差最小的模型。
        3. S折交叉驗證:隨機將已給數據分爲S個互不相交、大小相同哦的子集;然後利用S-1個子集的數據訓練模型,利用餘下的子集測試模型;將這一過程對可能的S中選擇重複進行;最後選出S次評測中平均測試誤差最小的模型。
        4. 留一交叉驗證:S折交叉驗證的特殊情況,S=n。這種方式常常在數據缺乏的情況下使用。
  6. 泛化能力:指由該方法學習到的模型對未知數據的預測能力。用模型對未知數據預測的誤差即泛化誤差。
  7. 監督學習從數據中學習一個分類模型或分類決策函數,稱爲分類器。分類器對新的輸入進行輸出的預測稱爲分類。可能的輸出稱爲類。
    1. 一般評判一個分類器性能的指標是分類準確率。
    2. 二分類問題常用的分類指標是精確率與召回率。
      1. 此外還有F1值,是精確率和召回率的調和均值。
  8. 可用於分類問題的模型有:k近鄰法、感知機、樸素貝葉斯法、局冊數、決策列表、邏輯迴歸模型、支持向量機、提升方法、貝葉斯網絡、神經網絡、winnow等。
  9. 標註常用的統計學習方法有:隱馬爾可夫模型、條件隨機場。
  10. 迴歸問題按照輸入變量的個數,分爲一元迴歸和多元迴歸;按照輸入標量和輸出變量之間關係的類型及模型的類型,分爲線性迴歸和非線性迴歸。迴歸學習最常用的損失函數是平方損失函數,在此情況下,迴歸問題可以由著名的最小二乘法求解。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章