統計學習方法學習筆記1

第一章統計學習方法概論
1.1
1.統計學習的特點：統計學習是計算機基於數據構建概率統計模型，並運用模型對數據進行預測和分析的一門學科，統計學習也稱爲統計機器學習。
2.統計學習的對象：數據。關於數據的基本假設是同類數據具有一定的統計規律性。
3.統計學習的目的：對數據進行預測和分析。統計學習總的目標就是學習什麼樣的模型和如何學習模型。
4.統計學習的方法：監督學習，無監督學習，半監督學習，強化學習等。模型–策略–算法。有限個訓練集–》確定所有可能模型的假設空間–》確定模型的準則，即策略，選擇一個最優模型–》實現求解最優模型的算法。

1.2 監督學習
1.2.1
1.輸入實例的特徵向量。

2.多個輸入變量中的第i個

3.訓練集通常表示爲

4.輸入變量和輸出變量均爲連續的爲迴歸問題；輸出變量爲有限個離散變量的爲分類問題；輸入變量和輸出變量均爲變量序列的爲標註問題。
5.假設空間：模型屬於輸入空間到輸出空間模型的集合，這個集合就是假設空間。監督學習的模型可以是概率模型，也可以是非概率模型。概率模型：概率分佈P(Y|X) 非概率模型：決策函數y=f(x)

1.2.2
1.監督學習分爲學習和預測兩個過程。

一個具體的模型，如y=f(x)，對於一個輸入(x1,y1)，可產生一個f(x1)，y1和f(x1)之間的差異越小越好。

1.3統計學習三要素
統計學習方法=模型+策略+算法
1.3.1 模型
在監督學習過程中，模型就是所要學習的條件概率分佈或者決策函數。模型的假設空間包含所有可能的條件概率分佈或決策函數。用決策函數表示模型爲非概率模型；用條件概率分佈表示的模型爲概率模型。
1.3.2 策略
有了模型的假設空間，統計學習接着考慮時按照什麼樣的準則學習或選擇最優的模型。統計學習策略所要做的就是在模型假設空間中選擇一個最優的模型。
1.損失函數和風險函數
用損失函數來度量訓練集中預測值f(X)和真實值Y之間差異，也可以說時預測的錯誤程度，記作L(Y,f(X))
統計學習常用的損失函數有以下幾種：

損失函數值越小，模型就越好；模型的輸入輸出X Y遵循聯合分佈P(X,Y)，所以損失函數的期望爲：

稱爲風險函數或者期望損失。

學習的目標就是選擇期望損失最小的模型。但是呢這個聯合分佈P(X,Y)時未知的，所以期望損失是無法直接計算出來的，如果已經知道聯合分佈P(X,Y)了，也就不需要學習了。所以用另外一個指標來評估—經驗風險或者經驗損失：
給定一個訓練數據集：

模型f(X)關於訓練數據集的平均損失稱爲經驗風險或經驗損失。

根據大數定律，當樣本容量N趨於無窮時，經驗風險趨於期望風險。但是樣本數量往往沒那麼大，所以用經驗風險估計期望風險常常不太理想，要對經驗風險進行一定的矯正：關係到監督學習的兩個基本策略，經驗風險最小化和結構風險最小化。

2.經驗風險最小化和結構風險最小化。
A.經驗風險最小化
經驗風險最小化的策略認爲，經驗風險最小的模型就是最優模型，按照這個策略，求解經驗風險函數最小化問題就是求解最優化的問題：

其中F是假設空間，在假設空間中找到經驗風險最小的模型實例。
極大似然估計就是經驗風險最小化的一個例子，當模型是條件概率分佈，損失函數是對數損失函數時，經驗風險最小化等價於極大似然估計。

B.結構風險最小化是爲了防止過擬合而提出的策略，等價於正則化。
結構風險是在經驗風險基礎上加上表示模型複雜度的正則化項或罰項。結構風險定義：

J(f)表示模型的複雜度，模型越複雜，J(f)越大，模型越簡單，J(f)越小。也就是說複雜度表示了對複雜模型的懲罰。

貝葉斯估計中的極大後驗概率估計就是結構風險最小化的一個例子。當模型是條件概率分佈，損失函數是對數損失函數，模型複雜度由模型先驗概率表示時，結構風險最小化就等價於最大後驗概率估計。
結構風險最小化認爲結構風險最小的模型是最優模型：

1.3.3算法
統計學習的問題歸結爲最優化的問題，統計學習算法稱爲求解最優化問題的算法–目標是高效的找到全局最優解。

1.4模型評估和模型選擇
1.4.1訓練誤差和測試誤差
測試誤差反應了學習方法對未知的測試數據集的預測能力，是學習中的重要概念。通常將學習方法對未知數據的預測能力稱爲泛化能力。
1.4.2過擬合和模型選擇
過擬合：如果一味的提高對訓練數據的預測能力，所選的模型的複雜度（如參數個數）則往往比真模型更高，這種現象是過擬合。過擬合是指學習時所選擇的模型包含的參數過多，以至於這一模型對已知數據的預測很好而對未知數據的預測很差。

下面舉例說明：
例：假設給定訓練數據集：
有N個樣本，多項式擬合的任務是假設給定數據由M次多項式函數生成，選擇最有可能產生這些數據的M次多項式函數。即在假設空間中選擇一個對已知數據和未知數劇都有很好預測能力的M次多項式。
假設給定如下圖的10個數據點，用0-9次多項式函數對數據進行擬合。

設M次多項式爲：
然後求經驗風險最小：

把M次多項式帶入經驗風險函數：

對wj（j爲下標）求偏導並令偏導爲0：

於是求得了多項式的係數w。
選擇模型時，不僅要考慮對已知數據的預測能力，還要考慮對未知數據的預測能力。從圖中可以看出來，隨着多項式次數的（模型複雜度）的增加，訓練誤差會減少，直至趨近於0，但是測試誤差卻不如此，測試誤差先減小，後增加。

爲了防止過擬合，選擇最優的模型，要選擇合適的模型複雜度，以達到使測試誤差最小的目的，下面介紹兩種常用的模型選擇方法：正交化和交叉驗證。

1.5 正則化和交叉驗證
模型選擇的典型方法:正則化。正則化時結構風險最小化策略的實現–在經驗風險上加一個正則項或罰項。

第一項是經驗風險，第二項是正則化項。正則化項是複雜度的單調遞增函數，即複雜度越大，正則化項越大， λ>=0爲調整兩者之間關係的係數。
正則化項可以取不同的形式，在迴歸問題中，損失函數是平方損失，正則化項可以是係數向量w的2範數（範數的概念）

正則化的作用是選擇經驗風險和模型複雜度同時較小的模型。
正則化符合奧卡姆剃刀原理（什麼是奧卡姆剃刀原理：如無必要，勿增實體）–能夠很好的預測已知和未知數據並且很簡單的模型纔是最好的。
從貝葉斯估計的角度來看，正則化項就是先驗概率。

另一種模型選擇的方法是交叉驗證。
簡單交叉驗證：隨機將數據分爲兩部分，一部分訓練集，一部分測試集。
S折交叉驗證：將數據隨機分爲S個互不相交，大小相同的子集，S-1個子集進行模型訓練，1個子集進行測試，可以重複進行S次，最後選出S次中平均測試誤差最小的模型。
留一交叉驗證：是S折交叉驗證的特殊形式，S=N，N是給定數據集的容量。

1.6 泛化能力
1.6.1泛化誤差
學習方法的泛化能力是指該方法學習到的模型對未知數據的預測能力。泛化誤差的定義：

其實泛化誤差就是所學習到模型的期望風險。

1.6.2泛化誤差上屆
學習方法的泛化能力分析往往是通過研究泛化誤差的概率上屆進行的，簡稱爲泛化誤差上屆。
對二類分類問題，當假設空間是有限個函數的集合F={f1,f2…fd}時，對任意一個函數f屬於F，至少已概率1-δ，以下不等式成立。

其中，

N爲樣本個數，d爲模型空間複雜度。
證明：會用到Hoeffding不等式，這裏不做證明了。

訓練集上考慮的是訓練誤差，測試集上考慮的是泛化誤差。
從泛化誤差上界公式可以看出出來如下性質：
1）訓練誤差越小，則泛化誤差越小；2）樣本容量N越大，則訓練誤差與泛化誤差越接近；3）假設空間中包含的函數越多，則泛化誤差上界越大。

1.7生成模型和判別模型
生成模型：由數據學習聯合概率分佈P(X,Y)，然後求出條件概率分佈P(Y|X)作爲預測的模型，即生成模型

典型的生成模型有：樸素貝葉斯法，隱馬爾科夫模型

判別模型：由數據直接學習決策函數f(X)或者條件概率分佈P(X|Y)爲預測的模型。
典型的判別模型有：k近鄰法，感知機，決策樹，邏輯斯蒂迴歸模型，最大熵模型，支持向量機，提升方法，條件隨機場等。

1.8分類問題
當輸出變量Y爲有限個離散值時，預測問題便成爲分類問題，這時輸入變量X可以是離散的，也可以是連續的。
分類器：監督學習從數據中學習一個分類模型或分類決策函數，稱爲分類器。分類的類別有多個時，稱爲多分類。
分類問題過程：

1.9標註問題
可以認爲標註問題是分類問題的一個推廣，標註問題又是更復雜的結構預測的簡單形式。輸入是一個觀測序列，輸出是一個標註序列或狀態序列。
標註問題過程：
對輸入標記序列找出相應的輸出標記序列。
對一個觀測序列：

找到一個條件概率P

最大的標記序列：

整個過程爲：

1.10迴歸問題
迴歸問題用於預測輸入變量（自變量）和輸出變量（因變量）之間的關係。
迴歸問題按照輸入變量的個數分爲一元迴歸和多元迴歸；按照輸入變量和輸出變量之間的關係的類型即模型類型，分爲線性迴歸和非線性迴歸。