統計學習概述
統計學習是關於計算機基於數據構建概率統計模型並運用模型對數據進行預測與分析的學科。目的是使得計算機系統通過運用數據及統計學習方法提高系統性能。
統計學習方法可以概述如下:
從給定的,有限的用於訓練的數據集合出發,假設數據是獨立同分布產生的;並且假設要學習的模型屬於某個函數的集合,稱爲假設空間;應用某個評價準則,從假設模型中選取一個最優模型,使它對已知的訓練數據及未知的測試數據在給定的評定準則下有最優的預測;最優模型的選取由算法實現。
統計學習分類
基本分類
-
監督學習:從標註數據中學習預測模型的機器學習問題,本質是學習輸入到輸出的映射統計規律
-
無監督學習:從無標註的數據中學習預測模型的機器學習問題,本質是學習數據中的統計規律或潛在結構
-
強化學習:智能系統在與環境的連續交互中學習最後最優行爲策略的機器學習問題,本質是學習最優的序貫決策。智能系統的目的不是短期獎勵的最大化,二十長期累積獎勵的最大化。
-
半監督學習:指利用標註數據和未標註數據學習預測模型的機器學習問題。主要是通過未標註的數據中的信息,輔助標註數據進行監督學習。
-
主動學習:指機器不斷主動給出具有較高區分度的實例進行標註,然後利用標註數據學習預測模型的機器學習問題。
按照模型分類
- 概率模型/非概率模型:兩者的區別不在於輸入和輸出之間的映射,而在於模型的內在結構。概率模型一定可以表示爲聯合概率分佈的形式,而非概率模型則不一定存在這樣的聯合概率分佈。
- 線性模型/非線性模型:根據模型的函數表達形式是否是線性函數分爲線性模型和非線性模型。
- 參數化模型/非參數化模型:參數化模型假設模型參數的維度固定,模型可以由有限維參數完全刻畫,非參數化模型假設模型參數的維度不固定,隨着訓練數據量的增加而不斷增大。
按照算法分類
- 在線學習:每次接受一個樣本,進行預測,之後學習模型,並不斷重複該循環步驟的機器學習問題。
- 批量學習:一次接受全部的數據,學習模型之後進行預測。
按照技巧分類
- 貝葉斯學習:在概率模型的學習和推理中,利用貝葉斯定理,計算在給定數據條件下模型的條件概率,並應用這個定理進行模型的估計以及數據的預測。
- 核方法:使用核函數表示和學習非線性模型的一種機器學習方法。
統計學習方法三要素
模型
模型就是要學習的條件概率分佈或者決策函數
策略
策略就是學習或者選擇模型的準則
- 損失函數度量模型一次預測的好壞
- 風險函數度量平均意義下模型預測的好壞,也稱爲期望損失
- 期望風險是模型關於聯合分佈的的期望損失
- 經驗風險是模型關於訓練樣本集的平均損失
- 結構風險是在經驗風險上加上表示模型複雜度的正則化項或罰項
- 訓練誤差是指模型關於訓練集的平均損失
- 測試誤差是指模型關於測試集的平均損失
- 過擬合是指學習時選擇的模型所包含的參數過多,以至於模型對已知的數據預測的很好,而對未知的數據預測的很差的現象。
- 交叉驗證:
- 簡單交叉驗證(流出交叉驗證):
- 隨機將數據分爲兩部分,一部分用於訓練集,一部分用於驗證集。
- K折交叉驗證:
- 隨機將數據切分爲K個互不交互,大小相等的數據集,每次用其中的K-1個數據集進行訓練,用餘下的子集測試模型,這樣進行K次,用K次的平均值作爲模型評價指標
- 留一交叉驗證:
- K折交叉驗證的特例,取K折數等於數據集容量N
- 簡單交叉驗證(流出交叉驗證):
- 泛化誤差:模型對未知數據預測的誤差的期望
- 生成模型/判別模型:
- 生成模型通過數據學習聯合概率分佈 然後求出條件概率分佈 作爲預測的模型。它表示了給定輸入輸出 的生成關係。
- 判別模型通過數據直接學習決策函數 或者條件概率分佈 作爲預測模型。它關心的是對給定的輸入,應該預測什麼樣的輸出
算法
算法就是學習模型的具體計算方法