今天開始學習李航老師的統計學習方法一書,在學習過程中,一些比較重要或值得探討的點會寫成博客,與大家分享或共同討論。
- 統計學習方法是基於數據構建統計模型從而對數據進行預測與分析。統計學習主要由監督學習(supervised learning)、非監督學習(unsupervised learning)、半監督學習(semi-supervised learning)和強化學習(reinforcement learning)等組成。
- 統計學習方法三要素:模型(模型的假設空間)、策略(模型選擇的準則)、算法(模型學習的算法)。
- 監督學習的任務是通過給定的數據的鍵值對學習一個模型,使得模型能夠對任意給定的輸入,對其相應的輸入做出一個好的預測。
- 在監督學習中,根據輸入輸出變量的不同類型,將預測任務分爲以下幾種:
- 迴歸問題:輸入、輸出變量均爲連續變量
- 分類問題:輸出變量爲有限個離散變量
- 標註問題:輸入變量與輸出變量均爲變量序列
- 在監督學習中,根據輸入輸出變量的不同類型,將預測任務分爲以下幾種:
- 損失函數:又稱代價函數,用來度量預測錯誤的程度。損失函數是f(X)和Y的非負實值函數,記作L(Y,f(X))。
- 其常見的損失函數有以下幾種。
- 0-1損失函數
- 平方損失函數
- 絕對損失函數
- 對數損失函數(對數似然損失函數)
- 0-1損失函數
- 一般來說,損失函數值越小,模型就越好。
- 損失函數的期望(又稱爲風險函數或期望損失)
- 其中,X、Y是隨機變量,P(X,Y)是X與Y的聯合分佈
- 模型學習的目標就是選擇期望風險最小的模型。
- 因爲一方面期望風險最小學習模型要用到聯合分佈,而另一反面聯合分佈是未知的,所以監督學習稱爲了一個病態問題。
- 我們可以使用經驗風險最小化或結構風險最小化來解決病態問題。
- 經驗風險最小化
- 當樣本容量足夠大時,他能保證很好的學習效果。
- 當樣本量較小是,容易產生‘過擬合’現象。
- 結構風險最小化
- 它是爲了防止過擬合而提出的策略。
- 其中J(f)爲模型的複雜度,即f越複雜,J(f)值就越大;λ是係數,大於等於0,用來權衡經驗風險和模型複雜度。
- 經驗風險最小化
- 其常見的損失函數有以下幾種。
- 過擬合:指學習時選擇的模型所包含的參數過多,以至於出現這一模型對已知的數據(即訓練集中的數據)預測的很好,但對未知的數據(及測試集中的數據)預測的很差的現象。
- 使用模型選擇旨在避免過擬合併提高模型的預測能力。
- 模型選擇時,即要考慮對已知數據的預測能力,而且要考慮對未知數據的預測能力。
- 常見的模型選擇方法:
- 正則化一般是模型複雜度的單調遞增函數,模型越複雜,正則化值就越大。正則化符合奧卡姆剃刀原理:在所有可能選擇的模型中,能夠很好地解釋一直數據並且十分簡單纔是最好的模型,也就是應該選擇的模型。
- 交叉驗證:當樣本充足時,隨機將樣本數據切分成三部分,分別是訓練集、驗證集、測試集。
- 交叉驗證的基本思想是重複地使用數據;把給定的數據進行切分,將切分的數據集組合爲訓練集和測試集,在此基礎上反覆地進行訓練、測試以及模型選擇。
- 簡單交叉驗證:用訓練集在各種條件下訓練模型,從而得到不同的模型;在測試集上評價各個模型的測試誤差,選出測試誤差最小的模型。
- S折交叉驗證:隨機將已給數據分爲S個互不相交、大小相同哦的子集;然後利用S-1個子集的數據訓練模型,利用餘下的子集測試模型;將這一過程對可能的S中選擇重複進行;最後選出S次評測中平均測試誤差最小的模型。
- 留一交叉驗證:S折交叉驗證的特殊情況,S=n。這種方式常常在數據缺乏的情況下使用。
- 泛化能力:指由該方法學習到的模型對未知數據的預測能力。用模型對未知數據預測的誤差即泛化誤差。
- 監督學習從數據中學習一個分類模型或分類決策函數,稱爲分類器。分類器對新的輸入進行輸出的預測稱爲分類。可能的輸出稱爲類。
- 一般評判一個分類器性能的指標是分類準確率。
- 二分類問題常用的分類指標是精確率與召回率。
- 此外還有F1值,是精確率和召回率的調和均值。
- 可用於分類問題的模型有:k近鄰法、感知機、樸素貝葉斯法、局冊數、決策列表、邏輯迴歸模型、支持向量機、提升方法、貝葉斯網絡、神經網絡、winnow等。
- 標註常用的統計學習方法有:隱馬爾可夫模型、條件隨機場。
- 迴歸問題按照輸入變量的個數,分爲一元迴歸和多元迴歸;按照輸入標量和輸出變量之間關係的類型及模型的類型,分爲線性迴歸和非線性迴歸。迴歸學習最常用的損失函數是平方損失函數,在此情況下,迴歸問題可以由著名的最小二乘法求解。