統計學習模型三要素
模型: 是在參數空間中的參數影響下,從一個空間到另一個空間的映射
- 假設空間(函數空間):函數的所有可能表示,如,假設空間中確定的函數 f 的輸出值被稱爲預測值。
- 參數空間:是一個 n 維的歐式空間,函數空間一般由參數空間來確定。如上面的參數空間就是二維的歐式空間。
策略: 度量預測值和真實值差異的準則或方法,一般稱爲loss 函數
- 別名:懲罰項
算法: 將所有的預測值向其對應的真實值靠攏的方法,如梯度下降法
經驗風險與結構風險
經驗風險是對模型不能很好的理解數據信息的懲罰
結構風險是對模型過於複雜的懲罰,也叫正則化
判別模型與生成模型
判別模型是可以直接得到的模型
生成模型是先得到,隨後再通過條件概率的方式得到
有監督學習
感知機
公式表示:
優化算法: 每次選擇分類錯誤的點計算誤差項對w進行更新
其他:
- 感知機存在一個與原模型等價的對偶表示,使用對偶形式進行訓練可以用於減少計算量
- 可以看做是邏輯迴歸和SVM兩個模型的雛形
- 是一個分類模型,判別模型
邏輯迴歸
公式表示:
優化方法: 極大似然估計,列出似然函數,隨後使用數值優化方法優化
其他:
- 邏輯迴歸可以看做是對感知機在概率空間的推廣
- 可以看做是最大熵模型在二分類問題上的特殊情況
- 是一個分類模型,判別模型
SVM
公式表示:
優化算法: SMO算法
其他:
- SVM是對感知機在模型表示(核方法、核函數)、優化策略(軟間隔、支持向量)和算法(SMO算法)上的全面升級
- 仍然存在一個對偶形式,通過該對偶形式,一方面可以用於減少計算量,另一方面可以更直接的引入核方法和核函數
- 其求解比較麻煩,不是一般的梯度下降法,而是一個啓發式的二次規劃算法
- 是感知機發展方向的一個極致
- 是一個分類模型,判別模型
樸素貝葉斯
公式表示:
優化算法: 根據假設的概率分佈選擇合適的求解方法,但一般一輪即可得到結果
其他:
- 如果說邏輯迴歸可以看做是感知機在概率空間的推廣,那麼樸素貝葉斯就是純粹建立在概率空間上的模型
- 樸素貝葉斯就是因爲其樸素的假設而成名,但當對其假設進行弱化後,就可以推廣到貝葉斯網絡等結構上
- 是一個分類模型,生成模型
最大熵模型
公式表示:
優化算法: 通過一些數值優化的方法來進行求解,如梯度下降法,GIS,擬牛頓法等,其要優化的函數是一個凸函數,因此總能找到最大值
其他:
- 最大熵模型基於最大熵原理來確定模型的求解約束,但其最終的表現形式和求解方法比較簡單
- 雖然思路來源不同,但實際上能夠證明最大熵模型的極大化等價於對其對偶形式的極大似然估計;而另一方面,也可以證明,邏輯迴歸就是一種特殊的最大熵模型
- 是一個分類模型,判別模型
隱馬爾科夫模型
公式表示: 由三個概率矩陣 / 組成的聯合概率
優化算法: baum-welch算法,是EM算法在隱馬爾科夫模型上的應用
其他:
- 可以看做是樸素貝葉斯在序列模型上的推廣,弱化了其條件獨立的假設(變成了馬爾可夫假設)
- 是一個序列(標註)模型,生成模型
最大熵馬爾可夫模型(MEMM):
公式表示:
優化算法: 採用EM算法和GIS算法的結合(在論文中被稱爲GEM算法),在E步求解概率,在M步採用GIS優化
其他:
- 是將最大熵原理應用到每個隨機變量上後構建的模型
- 存在諸多的問題(標記偏置),因此沒有被作爲主流模型使用。
- 是一個序列標註模型,判別模型
條件隨機場(CRF)
公式表示:
優化算法: GIS算法
其他:
- 是將最大熵原理應用到概率圖上後構建的模型
- 解決了MEMM等序列模型的標記偏置問題,稱爲了統計學習方法中序列問題上的最好的模型
- 是一個序列標註模型,判別模型
這一套體系之外的其他坑:
- k近鄰法
- 決策樹
- 提升方法
- 無監督學習、半監督學習
- 由樸素貝葉斯、HMM、CRF等拓展到的概率圖模型和貝葉斯網絡
- 由感知機、邏輯迴歸推廣到的廣義線性模型和指數分佈族