李航《統計學習方法》讀書筆記1——第一章 統計學習方法概論

第一章 統計學習方法概論

簡單介紹統計學習方法基本概念。

統計學習

定義

關於計算機基於數據構建概論統計模型並運用模型對數據進行預測與分析的一門學科。統計學習也稱爲統計機器學習。

研究對象

數據data(數字、文字、圖像、視頻、音頻),同類數據具有一定的統計規律性

獲取數據——提取特徵——抽象模型——挖掘知識——分析預測

統計學習方法

基於數據構建統計模型從而對數據進行預測與分析,由監督學習、非監督學習、半監督學習、強化學習等組成。

步驟

1、得到一個優先的訓練數據集合

2、確定包含所有可能的模型的假設空間,即學習模型的集合

3、確定模型選擇的準則,即學習的策略

4、實現求解最優模型的算法,即學習的算法

5、通過學習方法選擇最優模型

6、利用學習的最優模型對新數據進行預測或分析

 

監督學習

基本概念

輸入空間:輸入的所有可能取值的集合

輸出空間:輸出的所有可能取值的集合

特徵空間:所有特徵向量存在的空間,每一維對應於一個特徵

映射關係:輸入空間X——特徵空間——輸出空間Y

聯合概率分佈:監督學習假設輸入與輸出的隨機變量X和Y遵循聯合概率分佈P(X,Y),P(X,Y)表示分佈函數或分佈密度函數。並假設訓練數據與測試數據是依聯合概率分佈P(X,Y)獨立同分布產生的。

假設空間:有輸入空間到輸出空間的映射的集合

應用

分類、標註、迴歸問題

分類問題:輸出變量爲有限個離散變量的預測問題

迴歸問題:輸入變量與輸出變量均爲連續變量的預測問題

標註問題:輸入變量與輸出變量均爲變量序列的預測問題

 

統計學習方法三要素

方法 = 模型+策略+算法

統計學習方法包括模型的假設空間、模型選擇的準則以及模型學習的算法。

模型

統計學習首先考慮的問題是學習什麼樣的模型。假設空間中的模型一般有無窮多個。要學習的條件概率分佈P(Y|X)或決策函數Y=f(X),由決策函數表示的模型爲非概率模型,由條件概率表示的模型爲概率模型。

策略

接着考慮按照什麼樣的準則學習或選擇最優的模型。

損失函數/代價函數:度量模型一次預測的好壞,預測值f(X)和真實值Y的非負實值函數L(Y,f(X))。

常用損失函數:

概率模型使用對數損失,非概率模型使用0-1損失、平方損失、絕對損失。

風險函數/期望損失/期望風險:度量平均意義下模型預測的好壞 ,模型關於聯合分佈的期望損失

學習的目標:選擇期望風險最小的模型

經驗風險/經驗損失:模型f(X)關於訓練數據集的平均損失

根據大數定律,當樣本容量N無窮大,經驗風險趨於期望風險,可用其進行估計。當N有限或很小時,使用兩個策略對經驗風險進行一定的矯正,經驗風險最小化、結構風險最小化。

經驗風險最小化ERM:經驗風險最小的模型是最優模型

當N足夠大,ERM能保證很好的學習效果,現實中廣泛採用。如極大似然估計,當模型是條件概率分佈,損失函數是對數損失函數時,ERM等價於極大似然估計。

但當N很小時,ERM學習效果未必很好,容易產生過擬合。

 

結構風險最小化SRM:認爲結構風險最小的模型是最優模型。防止過擬合提出來的策略,等價於正則化,結構風險小的模型往往對訓練數據集以及未知測試數據都有較好預測。如貝葉斯估計中的最大後驗概率估計MAP,當模型是條件概率分佈、損失函數是對數損失函數、模型複雜度由模型的先驗概率表示時,SRM等價於MAP。

 總結:

如何選擇最優模型呢?預測值與真實值損失越小,模型越好。

那如何選擇合適的損失/風險函數?損失函數度量一次預測結果,風險函數度量平均意義的預測結果,度量所有訓練樣本故選擇風險函數。但風險函數無法直接計算,根據大數定律將問題轉換爲計算所有訓練集的平均損失——經驗風險/經驗損失,即每次損失函數的累加和平均值。

但直接使用經驗風險結果往往不理想,需要矯正,方法兩種:經驗風險最小化、結構風險最小化。經驗風險最小化適用於樣本量N足夠大,效果好;結構風險最小化適用於樣本量小、複雜度高、對數損失函數,效果好,防止過擬合。

這樣,監督學習問題就變成了經驗風險或結果風險函數的最優化問題。經驗或結構風險函數是最優化的目標函數。

算法

最後考慮用什麼樣的計算方法求解最優模型。算法指學習模型的具體計算方法。如何求解最優化問題(目標函數最優化),有顯式解析解直接算,若沒有的話,要用數值計算的方法求解,如何保證找到全局最優解,並使求解過程非常高效,成爲一個重要問題。可以利用已有最優化算法,或者開發獨自的最優化算法。

 

模型評估與選擇

具體採用的損失函數未必是評估時使用的損失函數,當然,兩者一致比較理想。

給定兩種學習方法,測試誤差小的方法具有更好的預測能力

泛化能力:學習方法對未知數據的預測能力

過擬合

學習時選擇的模型所包含參數過多,對已知數據預測效果好,但對未知數據預測差

模型選擇

旨在避免過擬合併提高模型預測能力

常用模型選擇方法:正則化、交叉驗證

模型複雜度越高,訓練誤差減小,但測試誤差先減小後增大

舉例

任務:給定一個訓練集T={(x,y),...},求解其多項式表達式

解決:迴歸問題,多項式函數

模型:先確定模型複雜度,即多項式次數

策略:給定模型複雜度,使用經驗風險最小化策略計算,損失函數採用平方損失

算法:求解最優參數,即多項式係數wj,對經驗風險函數對係數求偏導並令其爲0,求出係數wj

正則化

結構風險最小化/正則化 = 經驗風險+正則化項/罰項

正則化項一般是模型複雜度的單調遞增函數,可以是模型參數向量的範數,符合奧卡姆剃刀原理(效果好且簡單,即爲最優)

 

交叉驗證

給定樣本數據充足,隨機劃分訓練集(訓練模型)、驗證集(模型選擇)、測試集(最終對學習方法的評估),選擇對驗證集有最小預測誤差的模型。

當數據不充足,採用交叉驗證:重複的利用數據,切分給定數據集爲不同的訓練集與測試集,反覆訓練、測試、模型選擇。

簡單交叉驗證:隨機分兩部分,70%訓練集,30%測試集,訓練集在不同條件下(不同參數個數、不同參數、……)訓練不同模型,測試集評價個模型測試誤差,選出測試誤差最小的模型。

S折交叉驗證:應用最多,隨機切分S個互不相交的大小相同的子集,利用S-1個子集訓練,剩餘測試。不斷重複該過程S次,選出評測中平均測試誤差最小的模型。

留一交叉驗證:S折交叉驗證特殊情形S=N,往往在數據缺乏時使用。

泛化能力

學習到的模型對未知數據的預測能力,通過測試誤差評價,當數據有限時結果不可靠。

泛化誤差

用學習的模型對未知數據預測的誤差,反映學習方法的泛化能力,即學習到的模型的期望風險。

泛化誤差上界

研究概率上界大小評判優劣。當樣本容量增加,泛化上界趨於0;假設空間容量越大,模型越難學,上界越大。

生成模型

生成方法由數據學習聯合概率分佈P(X,Y),然後求出條件概率分佈P(Y|X)作爲預測的模型,即生成模型P(Y|X) = P(X,Y) / P(X)。

模型表示給定輸入X產生輸出Y的生成關係P(X,Y)。如樸素貝葉斯法、隱馬爾科夫。

  • 可以還原出聯合概率分佈P(X,Y),判別放法不能
  • 學習收斂速度更快,當樣本容量增加,模型更快地收斂於真是模型
  • 存在隱變量時,可用生成方法學習,判別方法不能使用

判別模型

判別方法由數據直接學習決策函數f(X)或者條件概率分佈P(Y|X)作爲預測的模型,即判別模型。改定輸入X,應該預測什麼樣的輸出Y。如k近鄰、感知機、決策樹、邏輯迴歸、最大熵、支持向量機、提升方法、條件隨機場。

  • 直接學習的是條件概率P(Y|X)或決策函數f(X),直接面對預測,學習準確率更高
  • 由於直接學習,可以對數據進行各種程度的抽、定義特徵並使用特徵,可以簡化學習問題

分類問題

輸出變量:有限個離散值

輸出變量:可連續、可離散

評價指標

準確率accuracy:對給定測試數據集,分類器正確分類的樣本數與總樣本數之比,即損失函數0-1損失時測試數據集上的準確率

二分類問題常用指標:關注的類爲正類,其他類爲負類

TP:正類預測爲正類

FN:正類預測爲負類

FP:負類預測爲正類

TN:負類預測爲負類

精確率precision:預測爲正類的結果中,正確樣本所佔比例,表示預測正類準不準

召回率recall:真實結果爲正類的結果中,預測正確樣本所佔比例,表示正類被召回多少

 

常用方法 

k近鄰、感知機、樸素貝葉斯、決策樹、決策列表、邏輯迴歸、支持向量機、提升方法、貝葉斯網絡、神經網絡、winnow等統計學習方法可用於分類。

應用

  • 銀行構建客戶分類模型,按照貸款風險大小分類
  • 網絡安全領域,利用日誌數據分類對非法入侵進行檢測
  • 圖像處理,檢測圖像是否有人臉出現
  • 手寫識別,識別手寫數字
  • 互聯網搜索,網頁分類幫助網頁的抓取、索引、排序
  • 文本分類,新聞報道、翁源、電子郵件、學術論文等,分內容領域爲政治、經濟、體育,分情感爲正面、負面,分應用爲垃圾郵件、廢垃圾郵件

標註問題

可認爲是分類問題的推廣,更復雜的結構預測問題的簡單形式。

輸入觀測序列,輸出標記序列或狀態序列。學習一個模型,能對觀測序列給出標記序列作爲預測,標記個數是有限的,其組合成的標記序列的個數是依序列長度呈指數級增長。

標註問題分爲學習和標註兩個過程。

評價指標

與分類一樣

常用方法

隱馬爾科夫、條件隨機場

應用

  • 信息抽取,文章抽取基本名詞短語,標記開始B、結束E、其他O,抽取名詞,如LTP實體抽取
  • 自然語言處理,詞性標註,給定單詞組成的句子,對句中每個單詞標註詞性,即對一個單詞序列預測對應的詞性標記序列

迴歸問題

迴歸問題等價於函數擬合。按輸入變量的個數分爲一元迴歸和多元迴歸,按輸入輸出關係類型分爲線性迴歸和非線性迴歸。

常用損失函數是平方損失函數,此時迴歸問題由最小二乘法求解。

應用

  • 商務領域,市場趨勢預測、產品質量管理、客戶滿意度調查、投資風險分析工具
  • 股價預測,已知某公司過去不同時間點股票價格(股票平均價格,作爲因變量),以及各時間點前影響股價的信息(前一週營業額、利潤,作爲自變量特徵),學習模型可基於當前信息預測下一個時間點的股票價格

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章