第一章統計學習方法概論

開始的話

儘量精簡、總結，順序重排
肯定會有些錯漏之處
學到哪更到哪

半角方括號中的數字對應書中的章節
全角方括號 一般是前面文字的總結
圓括號 是 補充說明
引用是 大段補充 或例子
鏈接：[ 全文章目錄 ]

一、統計學習 [1.1]

（一）總定義

統計學習：提取數據特徵 ——> 抽象數據模型 ——> 對數據進行分析與預測

（二）統計學習的方法

統計學習的幾類：

監督學習（supervised learning）【重點】：分類、標註、迴歸
非監督學習（unsupervised learning）：聚類、降維
半監督學習（semi-supervised learning）
強化學習（reinforcement learning）
補充：深度學習和神經網絡

算法：略（這本書主要講監督學習的算法，後面就會學到了）

本節名詞理解：
-數據獨立同分布：數據間相互獨立，但遵循同一分佈函數
-假設空間（hypothesis space）：假設要學習的模型屬於某個函數的集合（比如模型就是一條一元一次的直線，你就不可能把它放在有小豬佩奇這麼複雜的函數集合裏面）
-評價標準（evaluation criterion）：後面會細講

二、監督學習[1.2]

（一）基本概念[1.2.1]

1、輸入空間、特徵空間與輸出空間

輸入的是一個實例（instance）
↓↓↓↓
一般由 特徵向量（feature vector）表示
↓↓↓↓↓↓↓↓
特徵向量的空間稱爲 特徵空間（feature space）

【輸入的是個向量，向量有幾維就是幾維空間】

2、聯合概率分佈

概率論知識：[ 百度百科鏈接 ]
例子：

3、假設空間（上面名詞解釋裏面有講）

符號：
條件概率分佈P(Y|X)
決策函數（decision function）Y=f(X)

（二）問題的形式化[1.2.2]

解釋一下argmax()是什麼：argmax = argument max，自變量最大值
x=argmax( f(x) )
argmax( f(x) )是使得 f(x)取得最大值所對應的變量x

本節名詞理解：
-歐式空間（歐幾里得空間）：就是幾維空間，但是在這裏，可以理解爲有幾個變量，有幾個變量就是幾維空間

三、統計學習三要素[1.3]

三要素：假設要什麼模型【模型】 ——> 這模型有什麼好【策略】 ——> 用什麼算法算出這個模型【算法】

（一）模型[1.3.1]

決策函數表示的模型爲非概率模型，
條件概率表示的模型爲概率模型。

（二）策略[1.3.2]

[ 不同函數的區別 ]
要點：損失函數、經驗風險、結構風險最小化

1、損失函數、代價函數

損失函數(loss function) 度量模型一次預測的好壞，
代價函數(cost function) 是損失函數的 代數總和 。

2、風險函數(期望損失)、經驗風險(經驗損失)【L是損失函數】

R_exp：風險函數(risk function) 或期望損失(expected loss)是損失函數的 期望總和 。

（1.9）損失函數的期望 = ∑( 那點的損失 * 那點的概率 )

！！！ 但是，由於聯合分佈P(X, Y)是未知的，所以 風險函數不能直接計算 。

R_emp：經驗風險(empirical risk)或經驗損失(empirical loss)是損失函數對(相對)全部數據的 平均值 。【重點】

而當樣本容量N趨於無窮時，經驗風險趨於期望風險，一般數據集有限，所以經驗風險估計期望風險不理想。
引出經驗風險最小化以及結構風險最小化。

3、經驗風險最小化(ERM)與結構風險最小化(SRM)

經驗風險最小化：經驗風險最小的模型是最優的模型。

極大似然估計是經驗風險最小化的一個例子，當模型是條件概率分佈，損失函數是對數損失函數的時候，經驗風險最小化等價於極大似然估計。

！！！ 但是，如果樣本小，使用經驗風險最小化時可能就會產生 “過擬合” 現象。

結構風險最小化：在經驗風險的基礎上，加上正則化項或罰項 【重點】
正則化項下面會細講。

貝葉斯估計中的最大後驗概率估計（maximum posterior probability estimation，MAP）就是結構風險最小化的一個例子。當模型是條件概率分佈、損失函數是對數損失函數、模型複雜度由模型的先驗概率表示時，結構風險最小化就等價於最大後驗概率估計。

（三）算法（略）

四、模型評估與模型選擇[1.4]

（一）訓練誤差與測試誤差[1.4.1]

訓練誤差是模型對訓練數據集的經驗風險，
測試誤差是模型對測試數據集的經驗風險。

當損失函數是0-1損失時，測試誤差就變成了常見的測試數據集上的誤差率。（0-1損失：當輸出的y與正確的y不相同時爲1，反之爲0）

對未知數據的預測能力稱爲泛化能力。

（二）過擬合與模型選擇[1.4.2]

過擬合：

求經驗損失最少：最小二乘法：略（）

爲了儘量得到測試誤差的最小值，引出正則化和交叉驗證。

五、正則化與交叉驗證[1.5]

（一）正則化[1.5.1]

1、正則化形式

跟上面 結構風險最小化 的圖是一個東西。

λ>=0用以權衡經驗風險和模型複雜度
J(f)爲模型的複雜度。模型f越複雜，複雜度J(f)就越大，反之，就越小。

能夠很好地解釋已知數據並且十分簡單纔是最好的模型。

2、範數

L₀範數：向量中非0元素的個數
L₁範數：向量各元素的絕對值之和
L₂範數：向量各元素的平方和然後開方

知道範數是什麼後。再來理解下圖。

（二）交叉驗證[1.5.2]

1、簡單交叉驗證

把一塊蛋糕分成兩份（大小可不一，46、73都可以），用一份當作訓練集，另一部分當作測試集(驗證集)

2、S折交叉驗證（有些地方叫k折交叉驗證法）

例如S爲10的時候，把蛋糕分成均等的10分並標上序號，分10次進行驗證。
第n次：取第n份的蛋糕做測試集，其他9份做訓練集。

3、留1交叉驗證

你把蛋糕分成了S份，但是每1份裏面只有一個向量。【S等於樣本數】

六、泛化能力[1.6]

（一）泛化誤差[1.6.1]

就是上面的風險函數（期望損失、期望風險）

（二）泛化誤差的概率上界（泛化誤差上界）[1.6.2]

性質：
1.它是樣本容量的函數，當樣本容量增加時，泛化上界趨於0；
2.它是假設空間容量（capacity）的函數，假設空間容量越大，模型就越難學，泛化誤差上界就越大。
大白話：【樣本容量越大，學習產生的模型對數據預測的誤差越小；維數越高(變量越多)越難學】

（三）例子：二類分類問題的泛化誤差上界（可以不用看）

證明：
1.

2.
代入

3.
P(a>=b)<=x ===》 1-P(a<b)<=x ===》P(a<b)>=1-x
由2中式子變化爲:

4.
定義一個變量δ（delta小寫）化簡

5.
對於外面那個“>=”號來說，至少有1-δ的概率
對P()裏面的“<”號來說，“<”右邊的就是左邊泛化誤差的上界，即泛化誤差上界
放在一起講，就是書中所說：

爲什麼說可以不用看呢，因爲討論的只是假設空間包含有限個函數情況下的泛化誤差上界，而一般情況下，假設空間包含的函數都是無限的。

七、生成模型與判別模型[1.7]

模型的一般形式：
決策函數：Y＝f(X)
條件概率分佈：P(Y|X)

統計學習方法：

生成方法——>生成模型——>學習得到聯合概率分佈P(x,y)
根據條件概率公式：

來生成生成模型。
判別方法——>判別模型——>學習得到條件概率分佈P(y|x)或決策函數f(X)

書中列舉的特點：

生成方法	判別方法
可以還原出聯合概率分佈P(X,Y)	不能
當樣本容量增加的時候，學到的模型可以更快收斂於真實模型	較慢
允許存在隱變量	不允許存在隱變量
	往往學習的準確率更高
	可以對數據進行各種程度上的抽象、定義特徵並使用特徵，因此可以簡化學習問題

鏈接：[ 生成模型和判別模型的具體區別 ]

八、分類問題[1.8]

分類準確率：就是上面四、（一）[1.4.1]裏面的損失函數是0-1損失時測試數據集上的準確率

在二類分類問題中，常用的評價指標是精確率與召回率。

以關注的類爲正類，其他類爲負類，4種情況出現的總數分別記作：

精確率和召回率都高時，F₁值也會高。

書中舉例的分類算法：k近鄰法、感知機、樸素貝葉斯法、決策樹、決策列表、邏輯斯諦迴歸模型、支持向量機、提升方法、貝葉斯網絡、神經網絡、Winnow等。

九、標註問題[1.9]

標註問題可以認爲標註問題是分類問題的一個推廣，標註問題又是更復雜的結構預測問題的簡單形式。

評價標註模型的指標與評價分類模型的指標一樣，常用的有標註準確率、精確率和召回率。

書中舉例的標註算法：隱馬爾可夫模型、條件隨機場。

十、迴歸問題[1.10]

迴歸問題的學習等價於 函數擬合 ：選擇一條函數曲線使其很好地 擬合已知數據 且很好地 預測未知數據 。

迴歸問題按照 輸入變量的個數 ，分爲一元迴歸和多元迴歸；
按照輸入變量和輸出變量之間關係的類型即 模型的類型 ，分爲線性迴歸和非線性迴歸。

迴歸學習最常用的損失函數是 平方損失函數 ，在此情況下，迴歸問題可以由著名的 最小二乘法 求解。

第一章結束… …

鏈接：[ 全文章目錄 ]

【統計學習方法by李航】第一章 統計學習方法概論 個人總結

第一章 統計學習方法概論