統計學習方法筆記,第一章,統計學系方法概論

這個博客系列是我複習李航博士的《統計學習方法》所做的筆記,其中一部分是筆記,一部分是自己的感悟和理解,可能有些理解不夠準確,歡迎指正!


1.1 統計學習

(1)統計學習方法的三要素:模型策略算法,之後的章節對於每一種模型都是按照這三個角度進行分析


(2)學習的定義:通過執行某個過程改進性能,而統計學習則是運用數據和統計的方法進行改進,通過統計方法對數據進行學習,改進模型的性能。


(3)統計學習的基本假設:同類數據具有一定的統計規律性。我們通常用於建模的數據都是具有相同性質的同類數據,如人的身高體重等。我們一般默認數據是獨立同分布的。


(4)統計學習的目標:

<1>學習什麼樣的模型(模型選擇)

<2>如何學習模型(優化目標,損失函數,策略)


(5)對應關係

模型 —— 假設空間的集合

策略 —— 模型的評價標準,優化目標,損失函數,代價函數

算法 —— 達到優化目標的方法,如梯度下降等


1.2 監督學習

1.監督學習的假設:輸入變量X與輸出變量Y遵循聯合概率分佈P(X,Y),且 概率分佈一定存在,是我們學習的對象。 我們假設數據都是由這個概率分佈P(X,Y)獨立同分布產生的。


1.3 統計學習三要素

1.3.1模型

模型決定了假設空間,假設空間包含了所有可能的條件分佈。比如我們假設模型爲一元線性函數,則所有滿足y = ax + b (a,b屬於R)就是假設空間。


1.3.2策略

1.策略是對於模型的評價標準,依照什麼樣的標準從假設空間中選擇最合適的模型。舉個不恰當的例子,,如果策略選擇是讓y最小,那就是讓x = 0,當然實際情況不可能這麼簡單,哈哈。


2.損失函數度量了預測錯誤的程度,即預測值和真實值的不一致性。


3.風險函數是損失函數對整個樣本空間的期望值,即


但是聯合分佈顯然是未知的,是我們想要得到的。但是我們風險函數是我們的策略,也就是優化目標,既然其中的未知,那麼就無法求了,怎麼辦呢?於是我們通常用經驗風險代替風險函數,如下所示:


其中是所有樣本點。

總言之,風險函數是關於聯合分佈的期望損失,經驗風險是訓練集上的平均損失

那麼爲什麼可以這樣替代呢?因爲根據大數定律,當樣本量N趨近於無窮大時,經驗風險趨近於風險函數

但是,N趨近於無窮大這個條件一般不成立,所以需要矯正。


4.經驗風險最小化和結構風險最小化

經驗風險最小化就是使得經驗風險最小,即


但是我們上面就提到了,N趨近於無窮大這個條件一般不成立,因此會產生過擬合,於是我們要採取結構風險最小化。


結構風險最小化就是正則化,目的就是爲了防止過擬合而加入懲罰項。

因爲從理論上來說,模型結構越複雜,就越容易降低經驗經驗風險,比如一元10次函數對於數據的擬合能力一定比一元一次強(很好理解,一元10次前9項爲0就是一元一次,所以它包含了一元一次)。這樣爲了降低經驗風險,我們會傾向於選擇複雜的模型,但是複雜的模型通常泛化能力不好,因此我們要通過加入懲罰項來讓模型傾向於選擇簡單的模型。


結構風險的定義:


其中是模型的複雜度,》=0是係數,我們最小化就是選擇結構風險最小化策略。


1.3.3算法

算法是根據學習策略,從假設空間中選擇最優模型的方法

通常都不會有解析解,因此採用數值方法求全局最優解。一般有梯度下降,牛頓法等。


1.4模型評估與模型選擇

1.4.1 訓練誤差與測試誤差

我們的學習更側重測試誤差,它反映了對於未知數據的預測能力,即泛化能力。

1.4.2過擬合與模型選擇
一般來說,模型複雜度越高,對於訓練集的擬合能力就越強,因此如果一味追求對訓練集的擬合,就會傾向於選擇非常複雜的模型,從而可能學習到了一些噪聲信息。模型的訓練誤差很小,但是測試誤差很大,但是我們之前說過,測試誤差纔是更重要的,因爲它反映了模型的泛化能力。

因此,在學習時要防止過擬合,就要選擇複雜度適當的模型,有兩種方法:正則化和交叉驗證。

1.5正則化與交叉驗證
1.5.1正則化
正則化就是結構風險最小化,即最小化

通常採用L1和L2範數。
帶L2範數的結構風險爲

帶L1範數的結構風險爲


因此當w的參數較大的時候,後一項變大,那麼爲了使L(w)最小,模型傾向於選擇較小的參數w,這樣就降低了複雜度。

1.7生成模型與判別模型


生成模型:通過聯合概率分佈,求出條件概率分佈

典型的有:樸素貝葉斯和隱馬爾可夫模型
特點:收斂快,可以解決隱變量問題,容量大時可以更快收斂於真實模型
判別模型:直接學習條件概率分佈
典型有:knn,LR,SVM,神經網絡等
特點:學習準確率高,可以直接定義特徵,可以簡化學習問題。

區別:是否是通過聯合概率分佈求模型

1.8 分類問題


評價指標:準確率(Accura),精確率(precision),召回率(recall)

TP ——將正類預測爲正類數
FN —— 將正類預測成負類數
FP —— 將負類預測成正類數
TN —— 將負類預測成正類數

記憶:第二個字母是預測結果,第一個字母是正確還是錯誤。

精確率(precision)



即預測爲正的裏面有多少是正的
信息檢索裏也稱爲查準率

查準率=檢索出的相關信息量 / 檢索出的信息總量

召回率(recall)



即樣本所有的正的裏面有多少被預測出來了
信息檢索裏也稱爲查全率

查全率=檢索出的相關信息量 / 系統中的相關信息總量

1.9 標註問題


標註問題是分類問題的推廣,它的輸入和輸出都是序列,因此它的輸入具有上下文關係,比如文本。
常用方法:隱馬爾科夫,條件隨機場

1.10 迴歸問題


迴歸問題的輸出都是連續值,而分類是離散值。迴歸問題等價於函數擬合:選擇一條函數曲線使其能很好地擬合已知數據和預測未知數據。

迴歸學習最常用的損失函數:平方損失函數,此時可以用最小二乘法求解。

迴歸學習很多時候可以轉化爲分類問題,比如對電影評分,我們可以用評星代替評分,通常分類的效果更好。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章