第一章 統計學習方法概論
開始的話
儘量精簡、總結,順序重排
肯定會有些錯漏之處
學到哪更到哪
半角方括號中的數字對應書中的章節
全角方括號 一般是前面文字的 總結
圓括號 是 補充說明
引用是 大段補充 或 例子
鏈接:[ 全文章目錄 ]
一、統計學習 [1.1]
(一)總定義
統計學習:提取數據特徵 ——> 抽象數據模型 ——> 對數據進行分析與預測
(二)統計學習的方法
統計學習的幾類:
- 監督學習(supervised learning)【重點】:分類、標註、迴歸
- 非監督學習(unsupervised learning):聚類、降維
- 半監督學習(semi-supervised learning)
- 強化學習(reinforcement learning)
- 補充:深度學習和神經網絡
算法:略(這本書主要講監督學習的算法,後面就會學到了)
本節名詞理解:
-數據獨立同分布:數據間相互獨立,但遵循同一分佈函數
-假設空間(hypothesis space):假設要學習的模型屬於某個函數的集合(比如模型就是一條一元一次的直線,你就不可能把它放在有小豬佩奇這麼複雜的函數集合裏面)
-評價標準(evaluation criterion):後面會細講
二、監督學習[1.2]
(一)基本概念[1.2.1]
1、輸入空間、特徵空間與輸出空間
輸入的是一個 實例(instance)
↓↓↓↓
一般由 特徵向量(feature vector)表示
↓↓↓↓↓↓↓↓
特徵向量的空間稱爲 特徵空間(feature space)
【輸入的是個向量,向量有幾維就是幾維空間】
2、聯合概率分佈
概率論知識:[ 百度百科鏈接 ]
例子:
3、假設空間(上面名詞解釋裏面有講)
符號:
條件概率分佈P(Y|X)
決策函數(decision function)Y=f(X)
(二)問題的形式化[1.2.2]
解釋一下argmax()是什麼:argmax = argument max,自變量最大值
x=argmax( f(x) )
argmax( f(x) )是使得 f(x)取得最大值所對應的變量x
本節名詞理解:
-歐式空間(歐幾里得空間):就是幾維空間,但是在這裏,可以理解爲有幾個變量,有幾個變量就是幾維空間
三、統計學習三要素[1.3]
三要素:假設要什麼模型【模型】 ——> 這模型有什麼好【策略】 ——> 用什麼算法算出這個模型【算法】
(一)模型[1.3.1]
決策函數表示的模型爲非概率模型,
條件概率表示的模型爲概率模型。
(二)策略[1.3.2]
[ 不同函數的區別 ]
要點:損失函數、經驗風險、結構風險最小化
1、損失函數、代價函數
- 損失函數(loss function) 度量模型 一次 預測的好壞,
- 代價函數(cost function) 是損失函數的 代數總和 。
2、風險函數(期望損失)、經驗風險(經驗損失)【L是損失函數】
- Rexp:風險函數(risk function) 或期望損失(expected loss)是損失函數的 期望總和 。
(1.9)損失函數的期望 = ∑( 那點的損失 * 那點的概率 )
!!! 但是,由於聯合分佈P(X, Y)是未知的,所以 風險函數不能直接計算 。
- Remp:經驗風險(empirical risk)或經驗損失(empirical loss)是損失函數對(相對)全部數據的 平均值 。【重點】
而當樣本容量N趨於無窮時,經驗風險趨於期望風險,一般數據集有限,所以經驗風險估計期望風險不理想。
引出經驗風險最小化以及結構風險最小化。
3、經驗風險最小化(ERM)與結構風險最小化(SRM)
- 經驗風險最小化:經驗風險最小的模型是最優的模型。
極大似然估計是經驗風險最小化的一個例子,當模型是條件概率分佈,損失函數是對數損失函數的時候,經驗風險最小化等價於極大似然估計。
!!! 但是,如果樣本小,使用經驗風險最小化時可能就會產生 “過擬合” 現象。
- 結構風險最小化:在經驗風險的基礎上,加上正則化項或罰項 【重點】
正則化項下面會細講。
貝葉斯估計中的最大後驗概率估計(maximum posterior probability estimation,MAP)就是結構風險最小化的一個例子。當模型是條件概率分佈、損失函數是對數損失函數、模型複雜度由模型的先驗概率表示時,結構風險最小化就等價於最大後驗概率估計。
(三)算法(略)
四、模型評估與模型選擇[1.4]
(一)訓練誤差與測試誤差[1.4.1]
訓練誤差是模型對訓練數據集的經驗風險,
測試誤差是模型對測試數據集的經驗風險。
當損失函數是0-1損失時,測試誤差就變成了常見的測試數據集上的誤差率。(0-1損失:當輸出的y與正確的y不相同時爲1,反之爲0)
對未知數據的預測能力稱爲泛化能力。
(二)過擬合與模型選擇[1.4.2]
過擬合:
求經驗損失最少:最小二乘法:略()
爲了儘量得到測試誤差的最小值,引出正則化和交叉驗證。
五、正則化與交叉驗證[1.5]
(一)正則化[1.5.1]
1、正則化形式
跟上面 結構風險最小化 的圖是一個東西。
λ>=0用以權衡經驗風險和模型複雜度
J(f)爲模型的複雜度。模型f越複雜,複雜度J(f)就越大,反之,就越小。
能夠很好地解釋已知數據並且 十分簡單 纔是最好的模型。
2、範數
L0範數:向量中非0元素的個數
L1範數:向量各元素的絕對值之和
L2範數:向量各元素的平方和然後開方
知道範數是什麼後。再來理解下圖。
(二)交叉驗證[1.5.2]
1、簡單交叉驗證
把一塊蛋糕分成兩份(大小可不一,46、73都可以),用一份當作訓練集,另一部分當作測試集(驗證集)
2、S折交叉驗證(有些地方叫k折交叉驗證法)
例如S爲10的時候,把蛋糕分成均等的10分並標上序號,分10次進行驗證。
第n次:取第n份的蛋糕做測試集,其他9份做訓練集。
3、留1交叉驗證
你把蛋糕分成了S份,但是每1份裏面只有一個向量。【S等於樣本數】
六、泛化能力[1.6]
(一)泛化誤差[1.6.1]
就是上面的風險函數(期望損失、期望風險)
(二)泛化誤差的概率上界(泛化誤差上界)[1.6.2]
性質:
1.它是樣本容量的函數,當樣本容量增加時,泛化上界趨於0;
2.它是假設空間容量(capacity)的函數,假設空間容量越大,模型就越難學,泛化誤差上界就越大。
大白話:【樣本容量越大,學習產生的模型對數據預測的誤差越小;維數越高(變量越多)越難學】
(三)例子:二類分類問題的泛化誤差上界(可以不用看)
證明:
1.
2.
代入
3.
P(a>=b)<=x ===》 1-P(a<b)<=x ===》P(a<b)>=1-x
由2中式子變化爲:
4.
定義一個變量δ(delta小寫)化簡
5.
對於外面那個“>=”號來說,至少有1-δ的概率
對P()裏面的“<”號來說,“<”右邊的就是左邊泛化誤差的上界,即泛化誤差上界
放在一起講,就是書中所說:
爲什麼說可以不用看呢,因爲討論的只是假設空間包含有限個函數情況下的泛化誤差上界,而一般情況下,假設空間包含的函數都是無限的。
七、生成模型與判別模型[1.7]
模型的一般形式:
決策函數:Y=f(X)
條件概率分佈:P(Y|X)
統計學習方法:
-
生成方法——>生成模型——>學習得到聯合概率分佈P(x,y)
根據條件概率公式:
來生成生成模型。 -
判別方法——>判別模型——>學習得到條件概率分佈P(y|x)或決策函數f(X)
書中列舉的特點:
生成方法 | 判別方法 |
---|---|
可以還原出聯合概率分佈P(X,Y) | 不能 |
當樣本容量增加的時候,學到的模型可以更快收斂於真實模型 | 較慢 |
允許存在隱變量 | 不允許存在隱變量 |
往往學習的準確率更高 | |
可以對數據進行各種程度上的抽象、定義特徵並使用特徵,因此可以簡化學習問題 |
八、分類問題[1.8]
分類準確率:就是上面四、(一)[1.4.1]裏面的損失函數是0-1損失時測試數據集上的準確率
在二類分類問題中,常用的評價指標是精確率與召回率。
以關注的類爲正類,其他類爲負類,4種情況出現的總數分別記作:
精確率和召回率都高時,F1值也會高。
書中舉例的分類算法:k近鄰法、感知機、樸素貝葉斯法、決策樹、決策列表、邏輯斯諦迴歸模型、支持向量機、提升方法、貝葉斯網絡、神經網絡、Winnow等。
九、標註問題[1.9]
標註問題可以認爲標註問題是分類問題的一個推廣,標註問題又是更復雜的結構預測問題的簡單形式。
評價標註模型的指標與評價分類模型的指標一樣,常用的有標註準確率、精確率和召回率。
書中舉例的標註算法:隱馬爾可夫模型、條件隨機場。
十、迴歸問題[1.10]
迴歸問題的學習等價於 函數擬合 :選擇一條函數曲線使其很好地 擬合已知數據 且很好地 預測未知數據 。
迴歸問題按照 輸入變量的個數 ,分爲一元迴歸和多元迴歸;
按照輸入變量和輸出變量之間關係的類型即 模型的類型 ,分爲線性迴歸和非線性迴歸。
迴歸學習最常用的損失函數是 平方損失函數 ,在此情況下,迴歸問題可以由著名的 最小二乘法 求解。
第一章結束… …
鏈接:[ 全文章目錄 ]