這個博客系列是我複習李航博士的《統計學習方法》所做的筆記,其中一部分是筆記,一部分是自己的感悟和理解,可能有些理解不夠準確,歡迎指正!
1.1 統計學習
(1)統計學習方法的三要素:模型、策略和算法,之後的章節對於每一種模型都是按照這三個角度進行分析
(2)學習的定義:通過執行某個過程改進性能,而統計學習則是運用數據和統計的方法進行改進,通過統計方法對數據進行學習,改進模型的性能。
(3)統計學習的基本假設:同類數據具有一定的統計規律性。我們通常用於建模的數據都是具有相同性質的同類數據,如人的身高體重等。我們一般默認數據是獨立同分布的。
(4)統計學習的目標:
<1>學習什麼樣的模型(模型選擇)
<2>如何學習模型(優化目標,損失函數,策略)
(5)對應關係
模型 —— 假設空間的集合
策略 —— 模型的評價標準,優化目標,損失函數,代價函數
算法 —— 達到優化目標的方法,如梯度下降等
1.2 監督學習
1.監督學習的假設:輸入變量X與輸出變量Y遵循聯合概率分佈P(X,Y),且 概率分佈一定存在,是我們學習的對象。 我們假設數據都是由這個概率分佈P(X,Y)獨立同分布產生的。
1.3 統計學習三要素
1.3.1模型
模型決定了假設空間,假設空間包含了所有可能的條件分佈。比如我們假設模型爲一元線性函數,則所有滿足y = ax + b (a,b屬於R)就是假設空間。
1.3.2策略
1.策略是對於模型的評價標準,依照什麼樣的標準從假設空間中選擇最合適的模型。舉個不恰當的例子,,如果策略選擇是讓y最小,那就是讓x = 0,當然實際情況不可能這麼簡單,哈哈。
2.損失函數度量了預測錯誤的程度,即預測值和真實值的不一致性。
3.風險函數是損失函數對整個樣本空間的期望值,即
但是聯合分佈顯然是未知的,是我們想要得到的。但是我們風險函數是我們的策略,也就是優化目標,既然其中的未知,那麼就無法求了,怎麼辦呢?於是我們通常用經驗風險代替風險函數,如下所示:
其中是所有樣本點。
總言之,風險函數是關於聯合分佈的期望損失,經驗風險是訓練集上的平均損失。
那麼爲什麼可以這樣替代呢?因爲根據大數定律,當樣本量N趨近於無窮大時,經驗風險趨近於風險函數。
但是,N趨近於無窮大這個條件一般不成立,所以需要矯正。
4.經驗風險最小化和結構風險最小化
經驗風險最小化就是使得經驗風險最小,即
但是我們上面就提到了,N趨近於無窮大這個條件一般不成立,因此會產生過擬合,於是我們要採取結構風險最小化。
結構風險最小化就是正則化,目的就是爲了防止過擬合而加入懲罰項。
因爲從理論上來說,模型結構越複雜,就越容易降低經驗經驗風險,比如一元10次函數對於數據的擬合能力一定比一元一次強(很好理解,一元10次前9項爲0就是一元一次,所以它包含了一元一次)。這樣爲了降低經驗風險,我們會傾向於選擇複雜的模型,但是複雜的模型通常泛化能力不好,因此我們要通過加入懲罰項來讓模型傾向於選擇簡單的模型。
結構風險的定義:
其中是模型的複雜度,》=0是係數,我們最小化就是選擇結構風險最小化策略。
1.3.3算法
算法是根據學習策略,從假設空間中選擇最優模型的方法。
通常都不會有解析解,因此採用數值方法求全局最優解。一般有梯度下降,牛頓法等。