【統計學習方法by李航】第一章 統計學習方法概論 個人總結


 

開始的話

儘量精簡、總結,順序重排
肯定會有些錯漏之處
學到哪更到哪

半角方括號中的數字對應書中的章節
全角方括號 一般是前面文字的 總結
圓括號補充說明
引用是 大段補充例子
鏈接:[ 全文章目錄 ]

一、統計學習 [1.1]


(一)總定義

統計學習:提取數據特徵 ——> 抽象數據模型 ——> 對數據進行分析與預測

 

(二)統計學習的方法

統計學習的幾類:

  1. 監督學習(supervised learning)【重點】:分類、標註、迴歸
  2. 非監督學習(unsupervised learning):聚類、降維
  3. 半監督學習(semi-supervised learning)
  4. 強化學習(reinforcement learning)
  5. 補充:深度學習和神經網絡

算法:略(這本書主要講監督學習的算法,後面就會學到了)

本節名詞理解:
-數據獨立同分布:數據間相互獨立,但遵循同一分佈函數
-假設空間(hypothesis space):假設要學習的模型屬於某個函數的集合(比如模型就是一條一元一次的直線,你就不可能把它放在有小豬佩奇這麼複雜的函數集合裏面)
-評價標準(evaluation criterion):後面會細講

 
 

二、監督學習[1.2]


(一)基本概念[1.2.1]

1、輸入空間、特徵空間與輸出空間

輸入的是一個 實例(instance)
                       ↓↓↓↓
一般由 特徵向量(feature vector)表示
            ↓↓↓↓↓↓↓↓
特徵向量的空間稱爲 特徵空間(feature space)

【輸入的是個向量,向量有幾維就是幾維空間】
看怎麼表示輸入輸出

2、聯合概率分佈

概率論知識:[ 百度百科鏈接 ]
例子:
二維離散型
連續型

3、假設空間(上面名詞解釋裏面有講)

符號:
條件概率分佈P(Y|X)
決策函數(decision function)Y=f(X)
 

(二)問題的形式化[1.2.2]

argmax
解釋一下argmax()是什麼:argmax = argument max,自變量最大值
x=argmax( f(x) )
argmax( f(x) )是使得 f(x)取得最大值所對應的變量x

本節名詞理解:
-歐式空間(歐幾里得空間):就是幾維空間,但是在這裏,可以理解爲有幾個變量,有幾個變量就是幾維空間

 
 

三、統計學習三要素[1.3]


三要素:假設要什麼模型【模型】 ——> 這模型有什麼好【策略】 ——> 用什麼算法算出這個模型【算法】

(一)模型[1.3.1]

決策函數表示的模型爲非概率模型
條件概率表示的模型爲概率模型

(二)策略[1.3.2]

[ 不同函數的區別 ]
要點:損失函數、經驗風險、結構風險最小化

1、損失函數、代價函數

  • 損失函數(loss function) 度量模型 一次 預測的好壞,
  • 代價函數(cost function) 是損失函數的 代數總和
    在這裏插入圖片描述

2、風險函數(期望損失)、經驗風險(經驗損失)【L是損失函數】

  • Rexp風險函數(risk function) 或期望損失(expected loss)是損失函數的 期望總和
    在這裏插入圖片描述
    (1.9)損失函數的期望 = ∑( 那點的損失 * 那點的概率 )

          !!! 但是,由於聯合分佈P(X, Y)是未知的,所以 風險函數不能直接計算
 

  • Remp經驗風險(empirical risk)或經驗損失(empirical loss)是損失函數對(相對)全部數據的 平均值【重點】
    在這裏插入圖片描述
    而當樣本容量N趨於無窮時,經驗風險趨於期望風險,一般數據集有限,所以經驗風險估計期望風險不理想。
    引出經驗風險最小化以及結構風險最小化。

3、經驗風險最小化(ERM)與結構風險最小化(SRM)

  • 經驗風險最小化:經驗風險最小的模型是最優的模型。

極大似然估計是經驗風險最小化的一個例子,當模型是條件概率分佈,損失函數是對數損失函數的時候,經驗風險最小化等價於極大似然估計。

!!! 但是,如果樣本小,使用經驗風險最小化時可能就會產生 “過擬合” 現象。

  • 結構風險最小化:在經驗風險的基礎上,加上正則化項或罰項 【重點】
    正則化項下面會細講。
    在這裏插入圖片描述

貝葉斯估計中的最大後驗概率估計(maximum posterior probability estimation,MAP)就是結構風險最小化的一個例子。當模型是條件概率分佈、損失函數是對數損失函數、模型複雜度由模型的先驗概率表示時,結構風險最小化就等價於最大後驗概率估計。

(三)算法(略)

 
 

四、模型評估與模型選擇[1.4]


(一)訓練誤差與測試誤差[1.4.1]

訓練誤差是模型對訓練數據集的經驗風險,
測試誤差是模型對測試數據集的經驗風險。

當損失函數是0-1損失時,測試誤差就變成了常見的測試數據集上的誤差率。(0-1損失:當輸出的y與正確的y不相同時爲1,反之爲0)

對未知數據的預測能力稱爲泛化能力。
 

(二)過擬合與模型選擇[1.4.2]

過擬合:
在這裏插入圖片描述
求經驗損失最少:最小二乘法:略()
在這裏插入圖片描述
爲了儘量得到測試誤差的最小值,引出正則化和交叉驗證。
 
 

五、正則化與交叉驗證[1.5]


(一)正則化[1.5.1]

1、正則化形式

跟上面 結構風險最小化 的圖是一個東西。
在這裏插入圖片描述
λ>=0用以權衡經驗風險和模型複雜度
J(f)爲模型的複雜度。模型f越複雜,複雜度J(f)就越大,反之,就越小。

能夠很好地解釋已知數據並且 十分簡單 纔是最好的模型。
 

2、範數

L0範數:向量中非0元素的個數
L1範數:向量各元素的絕對值之和
L2範數:向量各元素的平方和然後開方

知道範數是什麼後。再來理解下圖。
在這裏插入圖片描述
 

(二)交叉驗證[1.5.2]

1、簡單交叉驗證

把一塊蛋糕分成兩份(大小可不一,46、73都可以),用一份當作訓練集,另一部分當作測試集(驗證集)

2、S折交叉驗證(有些地方叫k折交叉驗證法)

例如S爲10的時候,把蛋糕分成均等的10分並標上序號,分10次進行驗證。
第n次:取第n份的蛋糕做測試集,其他9份做訓練集。

3、留1交叉驗證

你把蛋糕分成了S份,但是每1份裏面只有一個向量。【S等於樣本數】
 
 

六、泛化能力[1.6]


(一)泛化誤差[1.6.1]

就是上面的風險函數(期望損失、期望風險)
在這裏插入圖片描述

(二)泛化誤差的概率上界(泛化誤差上界)[1.6.2]

性質:
1.它是樣本容量的函數,當樣本容量增加時,泛化上界趨於0;
2.它是假設空間容量(capacity)的函數,假設空間容量越大,模型就越難學,泛化誤差上界就越大。
大白話:【樣本容量越大,學習產生的模型對數據預測的誤差越小;維數越高(變量越多)越難學】
 

(三)例子:二類分類問題的泛化誤差上界(可以不用看)

在這裏插入圖片描述
證明:
1.
在這裏插入圖片描述
2.
代入
在這裏插入圖片描述
3.
P(a>=b)<=x ===》 1-P(a<b)<=x ===》P(a<b)>=1-x
由2中式子變化爲:
在這裏插入圖片描述
4.
定義一個變量δ(delta小寫)化簡
在這裏插入圖片描述
5.
對於外面那個“>=”號來說,至少有1-δ的概率
對P()裏面的“<”號來說,“<”右邊的就是左邊泛化誤差的上界,即泛化誤差上界
放在一起講,就是書中所說:
在這裏插入圖片描述

爲什麼說可以不用看呢,因爲討論的只是假設空間包含有限個函數情況下的泛化誤差上界,而一般情況下,假設空間包含的函數都是無限的

 
 

七、生成模型與判別模型[1.7]


模型的一般形式:
決策函數:Y=f(X)
條件概率分佈:P(Y|X)

統計學習方法:

  • 生成方法——>生成模型——>學習得到聯合概率分佈P(x,y)
    根據條件概率公式:
    在這裏插入圖片描述
    來生成生成模型。

  • 判別方法——>判別模型——>學習得到條件概率分佈P(y|x)或決策函數f(X)

 
書中列舉的特點:

生成方法 判別方法
可以還原出聯合概率分佈P(X,Y) 不能
當樣本容量增加的時候,學到的模型可以更快收斂於真實模型 較慢
允許存在隱變量 不允許存在隱變量
  往往學習的準確率更高
  可以對數據進行各種程度上的抽象、定義特徵並使用特徵,因此可以簡化學習問題

鏈接:[ 生成模型和判別模型的具體區別 ]
 
 

八、分類問題[1.8]


分類準確率:就是上面四、(一)[1.4.1]裏面的損失函數是0-1損失時測試數據集上的準確率

在二類分類問題中,常用的評價指標是精確率召回率

以關注的類爲正類,其他類爲負類,4種情況出現的總數分別記作:
在這裏插入圖片描述
精確率和召回率都高時,F1值也會高。

書中舉例的分類算法:k近鄰法、感知機、樸素貝葉斯法、決策樹、決策列表、邏輯斯諦迴歸模型、支持向量機、提升方法、貝葉斯網絡、神經網絡、Winnow等。

 
 

九、標註問題[1.9]


標註問題可以認爲標註問題是分類問題的一個推廣,標註問題又是更復雜的結構預測問題的簡單形式。

評價標註模型的指標與評價分類模型的指標一樣,常用的有標註準確率精確率召回率

書中舉例的標註算法:隱馬爾可夫模型、條件隨機場。

 
 

十、迴歸問題[1.10]


迴歸問題的學習等價於 函數擬合 :選擇一條函數曲線使其很好地 擬合已知數據 且很好地 預測未知數據

迴歸問題按照 輸入變量的個數 ,分爲一元迴歸和多元迴歸;
按照輸入變量和輸出變量之間關係的類型即 模型的類型 ,分爲線性迴歸和非線性迴歸。

迴歸學習最常用的損失函數是 平方損失函數 ,在此情況下,迴歸問題可以由著名的 最小二乘法 求解。


第一章結束… …
 
鏈接:[ 全文章目錄 ]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章