李航：統計學習方法學習筆記 1 統計學習方法概論

原創

2020-05-20 09:12

李航：統計學習方法學習筆記 1 統計學習方法概論

前言

考研終於告一段落，接下來是安心等待入學。想利用這段時間系統學習一下機器學習基礎，簡單記錄一下自己的學習過程，也算是對自己的一種監督。

1.1 統計學習

統計學習（statistics learning）關注概率統計模型，也稱爲統計機器學習（statistics machine learning）。
統計學習關於數據的基本假設是同類數據具有一定的統計規律性，一般假設數據是獨立同分布產生的。
統計學習方法包括模型的假設空間、模型選擇的準則以及模型學習的算法，稱其爲統計學習方法的三要素，簡稱爲模型 (model）、策略（strategy）和算法 (algorithm）。

1.2 監督學習

統計學習假設數據存在一定的統計規律，X 和 Y 具有聯合概率分佈的假設就是監督學習關於數據的基本假設。
監督學習的模型可以是概率模型或非概率模型，由條件概率分佈 P(Y | X) 或決策函數 Y = f(X) 表示，隨具體學習方法而定.
如果這個模型有很好的預測能力，訓練樣本輸出 yi 和模型輸出 f(xi) 之間的差就應該足夠小，學習系統通過不斷地嘗試，選取最好的模型。

1.3 統計學習三要素

模型：監督學習過程中，模型就是所要學習的條件概率分佈或決策函數。
策略：有了模型的假設空間，統計學習接着需要考慮的是按照什麼樣的準則學習或選擇最優的模型，統計學習的目標在於從假設空間中選取最優模型。
算法：算法是指學習模型的具體計算方法。通常解析解不存在，這就需要用數值計算的方法求解。

下面詳細介紹一下“策略”，首先引入損失函數與風險函數的概念。損失函數度量模型一次預測的好壞，風險函數度量平均意義下模型預測的好壞。

1.3.1 損失函數和風險函數

統計學習常用的損失函數有以下幾種：0-1損失，平方損失，絕對損失函數，對數損失函數。

損失函數的期望是理論上模型 f(X) 關於聯合分佈 P(X, Y）的平均意義下的損失，稱爲風險函數（risk function）或期望損失（expected loss）。

一方面根據期望風險最小學習模型要用到聯合分佈，另一方面聯合分佈又是未知的，所以監督學習就成爲一個病態問題（ill-formed problem）。

模型 f(X) 關於訓練數據集的平均損失稱爲經驗風險（empirical risk）或經驗損失（empirical lost），記作 Remp。

期望風險 Rexp(f) 是模型關於聯合分佈的期望損失，經驗風險 Remp(f) 是模型關於訓練樣本集的平均損失。根據大數定律，當樣本容量 N 趨於無窮時，經驗風險 Rexp(f) 趨於期望風險 Remp(f)。所以一個很自然的想法是用經驗風險估計期望風險。但是，由於現實中訓練樣本數目有限，甚至很小，所以用經驗風險估計期望風險常常並不理想，要對經驗風險進行一定的矯正。這就關係到監督學習的兩個基本策略：經驗風險最小化和結構風險最小化。

1.3.2 經驗風險最小化和結構風險最小化

經驗風險最小化 (empirical risk minimization, ERM）的策略認爲，經驗風險最小的模型是最優的模型。根據這一策略，按照經驗風險最小化求最優模型就是求解最優化問題：

比如，極大似然估計 (maximum likelihood estimation) 就是經驗風險最小化的一個例子。但是，樣本容量很小時，經驗風險最小化學習的效果就未必很好，會產生"過擬合(over-fitting)" 現象。

結構風險最小化（structure risk minimization, SRM）是爲了防止過擬合而提出來的策略。結構風險最小化等價於正則化（regularization）。

比如，貝葉斯估計中的最大後驗概率估計 (maximum posterior probability estimation, MAP) 就是結構風險最小化的一個例子。

1.4 模型評估與模型選擇

統計學習方法具體採用的損失函數（學習時）未必是評估時使用的損失函數。當然，讓兩者一致是比較理想的。
假設學習到的模型是 y=f-hat(X) ，則訓練誤差是模型 y=f-hat(X) 關於訓練數據集的平均損失。測試誤差是模型 y=f-hat(X) 關於測試數據集的平均損失。
例如，當損失函數是 0-1 損失時，測武誤差就變成了常見的測試數據集上的誤差率（error rate）。

關於過擬合與模型選擇的例子，例 1.1 多項式擬合。文中對wj偏導的結果似乎有問題，參考李航《統計學習方法》多項式函數擬合問題V2。

1.5 其他…

還有正則化與交叉驗證，模型泛化能力，生成模型（如樸素貝葉斯和隱馬爾科夫模型）與判別模型（k近鄰、感知機、決策樹和支持向量機），以及分類問題、標註問題（NLP裏的詞性標註）和迴歸問題的內容，知識點不一一細記，主要梳理一下疑問的地方。

好奇上圖中第一個不等式右邊括號裏爲什麼不是 1/N…

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

李航：統計學習方法學習筆記 1 統計學習方法概論

李航：統計學習方法學習筆記 1 統計學習方法概論

前言

1.1 統計學習

1.2 監督學習

1.3 統計學習三要素

1.3.1 損失函數和風險函數

1.3.2 經驗風險最小化和結構風險最小化

1.4 模型評估與模型選擇

1.5 其他…

李航：統計學習方法學習筆記 6 logistic迴歸與最大熵模型

論文筆記：Dark Channel Prior - Kaiming He（2）

《MATLAB Deep Learning》Ch4 & Ch5 學習筆記

論文筆記：Dark Channel Prior - Kaiming He（1）

《MATLAB Deep Learning》Ch1 & Ch2 學習筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

李航：統計學習方法 學習筆記 1 統計學習方法概論

李航：統計學習方法 學習筆記 1 統計學習方法概論

前言

1.1 統計學習

1.2 監督學習

1.3 統計學習三要素

1.3.1 損失函數和風險函數

1.3.2 經驗風險最小化和結構風險最小化

1.4 模型評估與模型選擇

1.5 其他…

李航：統計學習方法學習筆記 1 統計學習方法概論

李航：統計學習方法學習筆記 1 統計學習方法概論