12_統計學習方法總結

一、監督學習、分類方法、標註方法

  • 監督學習可以認爲是學習一個模型,使它能對給定的輸入預測相應的輸出。監督學習包括分類、標註、迴歸;

  • 分類問題是實例的特徵向量到類標記的預測問題;

  • 標註問題是從觀測序列到標記序列(或狀態序列)的預測問題;

  • 可以認爲分類問題是標註問題的特殊情況。分類問題中可能的預測結果是二類或多類。而標註問題中可能的預測結果是所有的標記序列,其數目是指數級的。

  • 感知機、k近鄰法、樸素貝葉斯、決策樹是簡單的分類方法,具有模型直觀、方法簡單、容易實現等特點;

  • 邏輯斯蒂迴歸與最大熵模型、支持向量機、提升方法是更復雜但更有效地的分類方法,往往分類準確率更高;

  • 隱馬爾科夫模型、條件隨機場是主要的標註方法。通常條件隨機場的標註準確率更高

二、模型

2.1 概率模型與非概率模型

分類問題和標註問題的預測模型都可以認爲是表示從輸入空間到輸出空間的映射。它們可以寫成條件概率分佈P(YX)P(Y|X)或 決策函數Y=f(X)Y = f(X)的形式。前者表示給定輸入條件下輸出的概率模型,後者表示輸入到輸出的非概率模型。

  • 概率模型:樸素貝葉斯、隱馬爾科夫模型
  • 非概率模型: 感知機、k近鄰法、支持向量機、提升方法
  • 概率模型and非概率模型:決策樹、邏輯斯蒂迴歸與最大熵模型、條件隨機場

2.2 判別模型與生成模型

  • 判別模型:直接學習條件概率分佈P(YX)P(Y|X)或決策函數Y=f(X)Y = f(X)的模型。感知機、k近鄰法、決策樹、邏輯斯蒂迴歸與最大熵模型、支持向量機、提升方法、條件隨機場是判別模型;
  • 首先學習聯合概率分佈P(X,Y)P(X,Y),從而求得條件概率分佈P(YX)P(Y|X)的模型。樸素貝葉斯、隱馬爾科夫模型是生成模型。可以使用非監督學習的方法學習生成模型。例如EM算法。

2.3 模型特點

  • 決策樹是定義在一般的特徵空間上的,可以含有連續變量或離散變量;
  • 感知機、支持向量機、k近鄰法的特徵空間是歐式空間(更一般地,是希爾伯特空間);
  • 提升方法的模型是弱分類器的組合,弱分類器的特徵空間就是提升方法模型的特徵空間;
  • 感知機模型是線性模型。邏輯斯蒂迴歸與最大熵模型、條件隨機場是對數線性模型。k近鄰法、決策樹、支持向量機(包含核函數)、提升方法使用的是非線性模型。

2.4 部分模型之間的關係

三、十大統計學習方法模型、策略與算法

3.1 感知機

詳見感知機

模型
f(x)=wx+bf(x) = w\cdot x + b

策略:損失函數極小化
min L(w,b)=xiMyi(wxi+b)min\space L(w,b) = -\sum_{x_i\in M}y_i(w\cdot x_i + b)

  • 誤分類點集合爲M

算法:隨機梯度下降法,rr爲學習率
yi(wxi+b)<=0y_i(w\cdot x_i + b) <= 0
w=w+r×yixi w = w + r \times y_i\cdot x_i
b=b+r×yi b = b + r \times y_i

3.2 KNN

詳見KNN

模型:計算距離

常用距離度量方式: 閔可夫斯基距離 “minkowski”也稱作LpL_p距離
Lp=[i=1nxiyip]1/pL_p = [\sum_{i=1}^n|x_i - y_i|^p]^{1/p}

  • p=1p = 1時稱爲曼哈頓距離 “manhattan”
  • p=2p = 2時稱爲歐式距離 “euclidean”
  • p=p = \infty時稱爲切比雪夫距離“chebyshev”

策略:如果一個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別,並具有這個類別上樣本的特性。
y=arg maxcjxiNk(x) I(yi=Cj)  i=1,2,,N, j=1,2,,Ky = arg\space max_{c_j} \sum_{x_i\in N_k(x)}\space I(y_i = C_j) \space\space i = 1,2,…,N,\space j = 1,2,…,K

算法:kd樹搜索

3.3 樸素貝葉斯法

詳見樸素貝葉斯法

3.3.1 模型:貝葉斯定理

條件獨立假設:用於分類的特徵在類確定的條件下都是條件獨立的。

P(Y=ckX=x)=P(Y=ck)P(X=xY=ck)P(X=x)=P(Y=ck)jP(X(j)=x(j)Y=ck)P(X=x)P(Y =c_k|X=x) = P(Y =c_k)\frac {P(X=x|Y =c_k)}{P(X=x)} = P(Y =c_k)\frac {\prod_jP(X^{(j)} = x^{(j)}|Y = c_k)}{P(X=x)}
求解arg maxckP(Y=ckX=x)arg\space max_{c_k}P(Y =c_k|X=x)對於Y取每一個類時P(X=x)P(X=x)都是一樣。也就是說後續在求解最優化時主要求解P(Y=ck)P(Y =c_k)jP(X(j)=x(j)Y=ck)\prod_jP(X^{(j)} = x^{(j)}|Y = c_k)即可。

3.3.2 策略:對數似然損失

3.3.3 算法:概率計算

  • 極大似然估計下:

先驗概率:P(Y=ck)=i=1NI(yi=ck)N,k=1,2,,KP(Y=c_k) = \frac {\sum_{i=1}^NI(y_i = c_k)}{N},k = 1,2,…,K
特徵 j \space j\space的類條件概率:第 j \space j\space個特徵x(j)x^{(j)}可能取值的集合爲 {aj1,aj2,,ajSj}\{a_{j1},a_{j2},…,a_{jS_j}\}P(X(j)=ajlY=ck)=i=1NI(xi(j)=ajl,yi=ck)i=1NI(yi=ck),j=1,2,,n;l=1,2,,Sj;k=1,2,,KP(X^{(j)} = a_{jl}|Y = c_k) = \frac {\sum_{i=1}^NI(x_i^{(j)} = a_{jl},y_i = c_k)}{\sum_{i=1}^NI(y_i = c_k)},j = 1,2,…,n;l = 1,2,…,S_j;k = 1,2,…,K

  • 貝葉斯估計
    P(Y=ck)=i=1N I(yi=ck)+λN+KλP(Y = c_k) = \dfrac {\sum_{i=1}^N{\space I(y_i = c_k)} + \lambda}{N + K\lambda}
    P(x(j)=ajlY=ck)=i=1N I(yi=ck,xi(j)=ajl)+λi=1N I(yi=ck)+SjλP(x^{(j)} = a_jl|Y = c_k) = \dfrac {\sum_{i=1}^N{\space I(y_i = c_k,x_i^{(j)} = a_{jl})} + \lambda}{\sum_{i=1}^N{\space I(y_i = c_k)} + S_j\lambda}
    λ=0\lambda = 0時就爲極大似然估計。常取λ=1\lambda = 1,這時稱爲拉普拉斯平滑(Laplace smoothing)。

3.4 決策樹

詳見決策樹

3.4.1 特徵選擇:使用某特徵對數據集劃分之後,各數據子集的純度要比劃分前的數據集D的純度高(也就是不確定性要比劃分前數據集D的不確定性低)。

特徵選擇的方法

  • 信息增益,ID3採用
  • 信息增益比,C4.5採用
  • GiniIndex,CART分類採用
  • 平方誤差最小化準則,CART迴歸採用

3.4.2 決策樹的生成

輸入:訓練數據集D,特徵集A,閾值ε\varepsilon

輸出:決策樹T

  • ID3(或ID4.5)決策樹生成:計算A中各特徵對D的信息增益(或信息增益比),選擇信息增益(或信息增益比)最大的特徵AgA_g;對AgA_g的每一可能取值aia_i,依Ag=aiA_g = a_i將D分割爲若干非空子集DiD_i,將DiD_i中實例數最大的類作爲標記,構建子結點,由結點及其子結點構成樹T,返回T。

  • CART分類樹的生成:在所有可能的特徵A以及他們所有可能的切分點a中,選擇基尼指數最小的特徵及其對應的切分點爲最優特徵和最優切分點。最優特徵和最優切分點,從現結點生成兩個子結點,將訓練數據集依特徵分配到兩個子結點中去。

上面兩種生成方法不同之處在於第一種生成是選出最優的特徵,第二種生成是選出最優特徵並找出最優切分點。這也是CART決策樹相較之的優點所在。

  • CART迴歸樹生成

step1:選擇最優切分變量j和切分點s,求解:
minj,s(minc1xiR1(j,s)(yic1)2+minc2xiR2 (j,s)(yic2)2)min \sum_{j,s}(min_{c_1}\sum_{x_i\in R_1(j,s)}(y_i-c_1)^2 + min_{c_2}\sum_{x_i\in R_2\space (j,s)}(y_i-c_2)^2)
遍歷變量j,對固定的切分變量j掃描切分點s,選擇使上式達到最小值的對(j,s)(j,s)

step2:用選定的對(j,s)(j,s)劃分區域並決定相應的輸出值:
R1(j,s)={xx(j)<=s},R2(j,s)={xx(j)>s}R_1(j,s) = \{x|x^{(j)} <=s\},R_2(j,s) = \{x|x^{(j)} > s\}
c1^=ave(yixiR1(j,s)), c2^=ave(yixiR2(j,s))\hat{c_1} = ave(y_i|x_i\in R_1(j,s)),\space \hat{c_2} = ave(y_i|x_i\in R_2(j,s))

3.4.3 決策樹的剪枝

  • 決策樹的生成算法容易構建過於複雜的決策樹,產生過擬合。

  • 決策樹的剪枝:在決策樹學習中將已生成的樹進行簡化的過程稱爲剪枝(pruning)。具體地,剪枝從已生成的樹上裁掉一些子樹或葉結點,並將其根結點或父結點作爲新的葉結點,從而簡化分類樹模型.

  • 決策樹的剪枝往往通過極小化決策樹整體的損失函數(loss fimction)或代價函數( cost function)來實現。

ID3(或ID4.5)剪枝方法:

設樹T的葉結點個數爲|T|, t是樹T的葉結點,該葉結點有NtN_t個樣本點,其中k類的樣本點有NtkN_{tk}個,k=1,2,…,K,Ht(T)H_t(T)爲葉結點t上的經驗嫡,α0\alpha \geq 0爲參數,則決策樹學習的損失函數可以定義爲:
Cα(T)=t=1TNtHt(T)+αT=t=1Tk=1KNtklogNtkNt+αTC_{\alpha} (T) = \sum_{t=1}^{|T|}N_t H_t(T) + \alpha |T| = -\sum_{t=1}^{|T|}\sum_{k=1}^K N_{tk}log\dfrac{N_{tk}}{N_t} + \alpha |T|

3.5 邏輯斯蒂迴歸和最大熵模型

詳見邏輯斯蒂迴歸和最大熵模型

3.5.1 邏輯斯蒂迴歸

模型
z=wx+b z = w\cdot x + b
y=hθ(x)=sigmoid(z)=11+ezy = h_{\theta}(x) = sigmoid(z) = \dfrac{1}{1+ e^{-z}}

策略:極大似然估計

似然函數
L(θ)=i=1N [hθ(x(i))]y(i) [1hθ(x(i))](1y(i) )L(\theta) = \prod_{i=1}^N\space[h_{\theta}(x^{(i)})]^{y^{(i)}}\space[1 - h_{\theta}(x^{(i)})]^{(1- y^{(i)}\space )}
對數損失函數
J=1Nl(θ)=1Ni=1N [y(i)log hθ(x(i))+(1y(i))log(1hθ(x(i)))]J = -\dfrac{1}{N}l(\theta) = -\dfrac{1}{N}\sum_{i=1}^N\space [y^{(i)}log\space h_{\theta}(x^{(i)}) + (1- y^{(i)})log(1 - h_{\theta}(x^{(i)}))]

算法:梯度下降
dw=Jhθ(x(i))hθ(x(i))zzw=1Ni=1N [hθ(x(i))y(i)]x(i)dw = \dfrac{\partial J}{\partial h_{\theta}(x^{(i)})} \dfrac{\partial h_{\theta}(x^{(i)})}{\partial z}\dfrac{\partial z}{\partial w} = \dfrac{1}{N}\sum_{i=1}^N\space[h_{\theta}(x^{(i)}) - y^{(i)}]x^{(i)}
db=Jhθ(x(i))hθ(x(i))zzb=1Ni=1N [hθ(x(i))y(i)] db = \dfrac{\partial J}{\partial h_{\theta}(x^{(i)})} \dfrac{\partial h_{\theta}(x^{(i)})}{\partial z}\dfrac{\partial z}{\partial b} = \dfrac{1}{N}\sum_{i=1}^N\space[h_{\theta}(x^{(i)}) - y^{(i)}]

w=wα×dww = w - \alpha\times dw
b=bα×dbb = b - \alpha\times db

3.5.2 最大熵模型

模型
條件概率分佈P(YX)P(Y | X)上的條件熵爲:
H(P)=x,yP~(x)P(yx)logP(yx)H(P)=−\sum_{x,y}\tilde{P}(x) P(y | x)logP(y | x)

策略:選擇條件熵最大的模型
maxPC  H(P)=x,yP~(x)P(yx)logP(yx)max_{P\in{\bf C}}\space\space H(P)=−\sum_{x,y}\tilde{P}(x) P(y | x)logP(y | x)
s.t.  EP(fi)=EP~(fi),i=1,2,...,ns.t.\space\space E_P(f_i)=E_{\tilde{P}}(f_i), i=1,2,...,n
yP(yx)=1\sum_yP(y | x)=1

用特徵函數f(x,y)f(x,y)描述輸入x x\spacey 輸出y\space之間的某一個事實。其定義是:
f(x,y)={1,xy滿0,other valuesf(x,y)=\begin{cases} 1, & x與y滿足某一事實\\ 0, & other\ values \end{cases}
特徵函數f(x,y)f(x,y)關於經驗分佈P~(X,Y)\tilde{P}(X,Y)的期望值,用EP~(f)E_{\tilde{P}}(f)表示。
EP~(f)=x,yP~(x,y)f(x,y)=x,yP~(x)P~(yx)f(x,y)E_{\tilde{P}}(f) = \sum_{x,y}\tilde{P}(x,y)f(x,y) = \sum_{x,y}\tilde{P}(x)\tilde{P}(y|x)f(x,y)
特徵函數f(x,y)f(x,y)關於模型P(YX)P(Y|X)與經驗分佈P~(X)\tilde{P}(X)的期望值,用EP(f)E_{P}(f)表示。
EP(f)=x,yP~(x)P(yx)f(x,y)E_{P}(f) = \sum_{x,y}\tilde{P}(x)P(y|x)f(x,y)

算法

  • 通用迭代尺度法(GIS: Generalized Iterative Scaling)。
  • 改進的迭代尺度法(IIS: Improved Iterative Scaling)。
  • 梯度下降算法
  • 擬牛頓法(牛頓法)

最大熵原理:承認已知事物(知識);對未知事物不做任何假設,沒有任何偏見。

兩個角度認識未知事物:

  • 最大熵模型:對不確定度的無偏分配;
  • 最大似然估計:對知識的無偏理解。

3.6 SVM

詳見SVM

模型:分類超平面

策略:核技巧,軟間隔最大化
maxw,b  γ^ws.t.    yi(wxi+b)γ^, i=1,2, ,N\begin{aligned} \max_{w,b}\space\space & \dfrac{\hat{\gamma}}{||w||} \\ s.t. \space\space\space\space & y_i\left({w}x_i + {b}\right) \geq \hat{\gamma},\space i = 1,2,\cdots ,N \end{aligned}
做兩點變換,但不影響最優化問題

  • γ^=1{\hat{\gamma}} = 1,因爲對於任何一個超平面都可以使得其函數間隔爲1,只要對w和b做相應的放大和縮小就行,另外取1可以使得計算最簡單,當然不能爲了簡單取0;
  • 最大化1w\dfrac{1}{||w||}和最小化12w2\dfrac{1}{2}||w||^2是等價的。是爲了算法求解簡單,凸二次優化有成熟的工具,這樣一求導數就只有ww了。

則最優化問題等價爲:
minw,b  12w2s.t.   1yi(wxi+b)0, i=1,2, ,N\begin{aligned} \min_{w,b}\space\space & \dfrac{1}{2}||w||^2 \\ s.t. \space\space\space & 1 - y_i\left({w}x_i + {b}\right) \leq 0,\space i = 1,2,\cdots ,N \end{aligned}

線性不可分意味着某些樣本點(xi,yi)(x_i,y_i)不能滿足函數間隔大於等於1的約束條件。爲了解決這個問題,可以對每個樣本點(xi,yi)(x_i,y_i)引進一個鬆弛變量ξi0\xi_i \geq 0,使函數間隔加上鬆弛變量大於等於1.這樣,約束條件變爲:
yi(wxi+b)1ξi, i=1,2, ,Ny_i\left({\bf w}{\bf x_i} + {b}\right) \geq 1 - \xi_i,\space i = 1,2,\cdots ,N
對於每一特異點雖然也讓它入夥,但是需要支付額外的代價,即鬆弛變量ξi×1\xi_i \times 1,目標函數由原來的12w2\dfrac {1}{2}||w||^2變成:
12w2+Ci=1Nξi\dfrac {1}{2}||{\bf w}||^2 + C \sum_{i=1}^N \xi_i

算法:序列最小最優算法(SMO)

3.7 提升方法(boosting)

詳見提升方法(boosting)

3.7.1 Adaboost

模型:加法模型,最終的強分類器是若干個弱分類器加權平均而得到的,基學習器類別不定。
G(x)=sign(f(x))=sign(m=1MαmGm(x))G(x) = sign(f(x)) = sign\left( \sum_{m=1}^M \alpha_m G_m(x)\right)

  • Gm(x)G_m(x)爲第m個弱分類器,m=1,2, ,Mm = 1,2,\cdots , M
  • αm\alpha_m爲第m個弱分類器的權重係數

策略:極小化加法模型的指數損失。

mm輪的強分類器fm(x)f_m(x)在訓練數據集TT上的指數損失函數爲:
arg mini=1Nexp[yifm(xi)]=mini=1Nexp[yi(fm1(xi)+αmGm(xi))]=minα,Gi=1Nwˉm,i exp[αmyiGm(xi))] \begin{aligned} arg \space & \min \sum_{i=1}^N exp[-y_i f_m(x_i)]\\ = & \min \sum_{i=1}^N exp[-y_i (f_{m-1}(x_i) + \alpha_m G_m(x_i))] \\ = & \min_{\alpha,G} \sum_{i=1}^N \bar w_{m,i}\space exp[ -\alpha_m y_i G_m(x_i))] \\ \end{aligned}

  • wˉm,i=exp[yi fm1(xi)]\bar w_{m,i} = exp[-y_i\space f_{m-1}(x_i)]
  • 因爲wˉm,i\bar w_{m,i}既不依賴αm\alpha_m也不依賴於Gm(x)G_m(x),所以在第mm輪求最小化時可以當作固定值看待。這也解釋了爲什麼可以使用前向分步算法作爲優化求解算法
  • wˉm,i\bar w_{m,i}依賴於fm1(xi)f_{m-1}(x_i),隨着每一輪迭代而發生變化。

算法:前向分步學習算法,我們的算法是通過一輪輪的弱分類器學習,每一輪選擇加權訓練數據分類誤差率最小的弱分類器,利用前一個弱分類器的結果來更新後一個弱分類器的訓練集權重。
fm(x)=fm1(x)+αmGm(x)f_m(x) = f_{m-1}(x) + \alpha_m G_m(x)
Gm(x)=arg minGi=1Nwˉm,i I(yi̸=Gm(xi))G_m^*(x) = arg\space \min_{G} \sum_{i=1}^N \bar w_{m,i}\space I( y_i \not= G_m(x_i))
αm=12ln1emem\alpha_m^* = \dfrac{1}{2}ln\dfrac{1-e_m}{e_m}
其中eme_m
em=i=1Nwˉm,iI(yi̸=Gm(xi))i=1Nwˉm,i=i=1Nwm,iI(yi̸=Gm(xi))e_m = \dfrac{\sum_{i=1}^N \bar w_{m,i} I(y_i \not= G_m^*(x_i))}{\sum_{i=1}^N \bar w_{m,i}} = \sum_{i=1}^N w_{m,i} I(y_i \not= G_m^*(x_i))

3.7.2 GBDT(梯度提升樹)

模型:加法模型,基學習器爲決策樹。
fM(x)=f0(x)+m=1MT(x;Θm)f_M(x) = f_0(x)+ \sum_{m=1}^M T(x;\Theta_m)

策略:損失函數不定,根據不同的損失函數而得到不同的提升樹

通過經驗風險極小化確定下一棵決策樹的參數Θm\Theta_m
Θ^m=arg minΘmi=1NL(yi,fm1(xi)+T(xi;Θm))\hat \Theta_m = arg\space \min_{\Theta_m}\sum_{i=1}^N L(y_i,f_{m-1}(x_i) + T(x_i;\Theta_m))

算法:前向分步算法

3.8 GMM與EM算法

詳見GMM與EM算法

3.8.1 模型

P(yθ)=k=1Kαkϕ(yθk)P(y|\theta) = \sum_{k=1}^K \alpha_k \phi(y|\theta_k)

  • αk\alpha_k是係數,αk0,k=1K=1\alpha_k \geq 0,\sum_{k=1}^K = 1
  • ϕ(yθk)\phi(y|\theta_k)是高斯分佈密度,θk=(μk,σk2)\theta_k = (\mu_k,\sigma_k^2)
    ϕ(yθk)=12π σkexp((yμk)22σk2)\phi(y|\theta_k) = \dfrac{1}{\sqrt{2\pi}\space \sigma_k}exp \left( -\dfrac{(y - \mu_k)^2}{2\sigma_k^2}\right)
    稱爲第k個分模型。

3.8.2 策略:對數似然損失

觀測數據yjy_j來自第k個分模型的數據是未知的,k=1,2, ,Kk = 1,2,\cdots ,K,以隱變量γjk\gamma_{jk}表示,其定義如下:
γjk={1,第j個觀測來自第k個分模型0,否則j=1,2, ,N;k=1,2, ,K \gamma_{jk} = \begin{cases} 1, & \text{第j個觀測來自第k個分模型} \\[2ex] 0, & \text{否則} \end{cases}\\ j=1,2,\cdots ,N;k=1,2,\cdots ,K
γjk\gamma_{jk}是0-1隨機變量。

完全數據的似然函數:
P(y,γθ)=j=1NP(yj,γj1,γj2, ,γjKθ)=j=1Nk=1K[αkϕ(yjθk)]γjk=k=1Kαknkj=1N[ϕ(yjθk)]γjk=k=1Kαknkj=1N[12π σkexp((yμk)22σk2)]γjk\begin{aligned}P(y,\gamma|\theta) & = \prod_{j=1}^N P(y_j,\gamma_{j1},\gamma_{j2},\cdots,\gamma_{jK}|\theta) = \prod_{j=1}^N \prod_{k=1}^K [\alpha_k \phi(y_j|\theta_k)]^{\gamma_{jk}} = \prod_{k=1}^K \alpha_k^{n_k} \prod_{j=1}^N [\phi(y_j|\theta_k)]^{\gamma_{jk}} \\ & = \prod_{k=1}^K \alpha_k^{n_k} \prod_{j=1}^N \left[ \dfrac{1}{\sqrt{2\pi}\space\sigma_k}exp \left( -\dfrac{(y - \mu_k)^2}{2\sigma_k^2}\right)\right]^{\gamma_{jk}} \end{aligned}
其中,nk=j=1Nγjk, k=1Knk=Nn_k = \sum_{j=1}^N \gamma_{jk},\space \sum_{k=1}^K n_k = N

那麼,完全數據的對數似然函數爲
lnP(y,γθ)=k=1Knklnαk+k=1Kj=1Nγjk[ln(12π)lnσk12σk2(yjμk)2]ln P(y,\gamma|\theta) = \sum_{k=1}^K n_k ln\alpha_k + \sum_{k=1}^K\sum_{j=1}^N \gamma_{jk}\left[ ln\left( \dfrac{1}{\sqrt{2\pi}} \right)- ln\sigma_k - \dfrac{1}{2\sigma_k^2}(y_j - \mu_k)^2 \right]

3.8.3 算法:EM算法

3.8.4 EM算法流程

輸入:觀測變量數據YY,隱變量數據ZZ,聯合分佈P(Y,Zθ)P(Y,Z|\theta),條件分佈P(ZY,θ)P(Z|Y,\theta)

輸出:模型參數θ\theta

(1)選擇參數的初值θ(0)\theta^{(0)},開始迭代;初值可以任意選擇,但需注意EM算法對初值是敏感的

(2)E步:記θ(i)\theta^{(i)}爲第ii次迭代參數θ\theta的估計值,在第i+1i + 1次迭代的E步,計算
Q(θ,θ(i))=ZP(ZY,θ(i))lnP(Y,Zθ)=EZ[lnP(Y,Zθ)Y,θ(i)]Q(\theta,\theta^{(i)}) = \sum_{Z}P(Z|Y,\theta^{(i)})lnP(Y,Z|\theta) = E_Z[lnP(Y,Z|\theta)|Y,\theta^{(i)}]

  • 上式的函數Q(θ,θ(i))Q(\theta,\theta^{(i)})是EM算法的核心,稱爲QQ函數。
  • 需要計算P(ZY,θ(i))P(Z|Y,\theta^{(i)}),即在給定觀測數據YY和當前的參數估計θ(i)\theta^{(i)}下隱變量數據ZZ的條件概率分佈,作爲隱變量的現估計值。
  • QQ函數:完全數據的對數似然函數lnP(Y,Zθ)lnP(Y,Z|\theta)關於在給定觀測數據YY和當前參數θ(i)\theta^{(i)}下對未觀測數據ZZ的條件概率分佈P(ZY,θ(i))P(Z|Y,\theta^{(i)})的期望稱爲QQ函數

(3)M步:求使Q(θ,θ(i))Q(\theta,\theta^{(i)})極大化的θ\theta,確定第i+1i+1次迭代的參數的估計值θ(i+1)\theta^{(i + 1)}
θ(i+1)=arg maxθQ(θ,θ(i))\theta^{(i+1)} = arg\space \max_{\theta} Q(\theta,\theta^{(i)})

(4)重複第(2)步和第(3)步,直到收斂。給出停止迭代的條件,一般是對較小的正數ϵ1,ϵ2\epsilon_1,\epsilon_2,若滿足
θ(i+1)θ(i)<ϵ1 or  Q(θ(i+1),θ(i))Q(θ(i),θ(i))<ϵ2||\theta^{(i + 1)} - \theta^{(i)}|| < \epsilon_1 \space or \space\space ||Q(\theta^{(i + 1)},\theta^{(i)}) - Q(\theta^{(i)},\theta^{(i)}) ||< \epsilon_2

GMM模型形式與Adaboost算法很像,但是差別挺大的。說下異同點

  • 模型:都是加法模型,Adaboost基學習器不指定,也就是說明也可以使用高斯分佈。
  • 策略:Adaboost採用的是指數損失函數,而GMM採用的是對數損失函數,根據基學習函數和算法來選擇較合適的就行,不是重要的區別項。
  • 算法:Adaboost前向分步算法,基學習器數量M是根據終止循環條件確定的,基學習器權重係數αm\alpha_m之和不指定爲1。GMM是採用EM算法,分模型數量K是在學習之前就指定的,分模型權重係數αk\alpha_k之和指定爲1。Adaboost用於監督學習,GMM用於非監督學習,這是兩種算法最主要的區別。

3.9 隱馬爾科夫模型

詳見隱馬爾科夫模型

3.9.1 模型

隱馬爾科夫模型(hidden Markov model,HMM)是關於時序的概率模型,描述由一個隱藏的馬爾科夫鏈隨機生成不可觀測的狀態隨機序列,再由各個狀態生成一個觀測而產生觀測隨機序列的過程。

隱馬爾科夫模型由初始狀態概率向量Π\Pi、狀態轉移概率矩陣AA和觀測概率矩陣BB決定。Π\PiAA決定狀態序列,BB決定觀測序列。因此,隱馬爾科夫模型λ\lambda可以用三元符號表示,即
λ=(A,B,Π)\lambda = (A,B,\Pi)

3.9.2 策略:極大似然估計,對數似然函數

完全數據的對數似然函數是lnP(O,Iλ)lnP(O,I|\lambda)

3.9.3 算法:EM算法

EM算法的E步:極大化QQ函數Q(λ,λˉ)Q(\lambda,\bar\lambda)
arg  maxλQ(λ,λˉ)=IP(IO,λˉ)lnP(O,Iλ)=IP(O,Iλˉ)P(Oλ^)lnP(O,Iλ)=arg  maxλIP(O,Iλˉ)lnP(O,Iλ)\begin{aligned}arg\;\max_{\lambda} Q(\lambda,\bar\lambda) & = \sum_{I}P(I|O,\bar\lambda)lnP(O,I|\lambda) = \sum_{I}\dfrac{P(O,I|\bar\lambda)}{P(O|\hat\lambda)}lnP(O,I|\lambda) \\ & = arg\;\max_{\lambda} \sum_{I}P(O,I|\bar\lambda)lnP(O,I|\lambda) \end{aligned}

EM算法的M步:極大化QQ函數Q(λ,λˉ)Q(\lambda,\bar\lambda)求模型參數A,B,ΠA,B,\Pi

3.9.4 預測:維特比算法

維特比算法實際是用動態規劃解隱馬爾科夫模型預測問題,即用動態規劃求概率最大路徑,這時一條路徑對應着一個狀態序列。

根據動態規劃原理,最優路徑具有這樣的特性:如果最優路徑在時刻t通過結點iti_t^*,那麼這一路經從結點iti_t^*到終點iTi_T^*的部分路徑,對於從iti_t^*iTi_T^*的所有可能的部分路徑來說,必須是最優的

3.10 線性鏈條件隨機場

詳見線性鏈條件隨機場

3.10.1 模型:時序數據上的對數線性模型


設有K1K_1個轉移特徵,K2K_2個狀態特徵,K=K1+K2K=K_1 + K_2,記
fk(yi1,yi,x,i)={tk(yi1,yi,x,i),k=1,2, ,K1sl(yi,x,i),k=K1+l;l=1,2, ,K2 f_k(y_{i-1},y_i,x,i) = \begin{cases} t_k(y_{i-1},y_i,x,i), & k=1,2,\cdots,K_1 \\[2ex] s_l(y_i,x,i), & k=K_1 + l;l=1,2,\cdots,K_2 \end{cases}
然後,對轉移與狀態特徵在各個位置i i\,求和,記作
fk(y,x)=i=1nfk(yi1,yi,x,i), k=1,2, ,Kf_k(y,x) = \sum_{i=1}^n f_k(y_{i-1},y_i,x,i),\,k=1,2,\cdots,K
wkw_k表示特徵fk(y,x)f_k(y,x)的權值,即
wk={λk,k=1,2, ,K1μl,k=K1+l;l=1,2, ,K2 w_k = \begin{cases} \lambda_k, & k=1,2,\cdots,K_1 \\[2ex] \mu_l, & k=K_1 + l;l=1,2,\cdots,K_2 \end{cases}
於是,條件隨機場可表示爲

P(yx)=1Z(x)exp(k=1Kwkfk(y,x))=1Z(x)exp(k=1Kwki=1nfk(yi1,yi,x,i))=1Z(x)iexp(k=1Kwkfk(yi1,yi,x,i))P(y|x) = \dfrac{1}{Z(x)}exp(\sum_{k=1}^K w_k f_k(y,x)) = \dfrac{1}{Z(x)}exp\left(\sum_{k=1}^K w_k \sum_{i=1}^n f_k(y_{i-1},y_i,x,i)\right) = \dfrac{1}{Z(x)}\prod_{i}exp\left(\sum_{k=1}^K w_k f_k(y_{i-1},y_i,x,i)\right)

Z(x)=yexp(k=1Kwkfk(y,x))=yexp(k=1Kwki=1nfk(yi1,yi,x,i))=yiexp(k=1Kwkfk(yi1,yi,x,i))Z(x) = \sum_y exp(\sum_{k=1}^K w_k f_k(y,x)) = \sum_y exp\left(\sum_{k=1}^K w_k \sum_{i=1}^n f_k(y_{i-1},y_i,x,i)\right)= \sum_y \prod_{i}exp\left(\sum_{k=1}^K w_k f_k(y_{i-1},y_i,x,i)\right)

3.10.2 策略:極大似然估計,對數似然函數

3.10.3 算法

  • 通用迭代尺度法(GIS: Generalized Iterative Scaling)。
  • 改進的迭代尺度法(IIS: Improved Iterative Scaling)。
  • 梯度下降算法
  • 擬牛頓法(牛頓法)

3.10.4 預測:維特比算法

四、十大統計學習方法知識點彙總

方法 適用問題 模型類型 模型 策略 損失函數 算法
感知機 二類分類 判別模型,非概率模型 分離超平面 極小化誤分類點到超平面距離 誤分類點到超平面距離 隨機梯度下降
k近鄰法 多類分類,迴歸 判別模型,非概率模型\qquad\qquad 特徵空間,樣本點 Nan Nan Nan
樸素貝葉斯法 多類分類 生成模型,概率模型 特徵與類別的聯合概率分佈,條件獨立假設 極大似然估計,極大後驗概率估計 對數似然損失 概率計算公式,EM算法
決策樹 多分類,迴歸 判別模型,概率and非概率模型 分類樹,迴歸樹 正則化的極大似然估計 對數似然損失 特徵選擇,生成,剪枝
邏輯斯蒂迴歸與最大熵模型 多類分類 判別模型,概率and非概率模型 特徵條件下類別的條件概率分佈,對數線性模型 極大似然估計,正則化的極大似然估計 邏輯斯蒂損失 改進的迭代尺度算法,梯度下降,擬牛頓法
支持向量機 二類分類 判別模型,非概率模型 分離超平面,核技巧 極小化正則化合頁損失,軟間隔最大化 合頁損失 序列最小最優化算法(SMO)
提升方法 二類分類 判別模型,非概率模型 弱分類器的線性組合 極小化加法模型的指數損失 指數損失 前向分步加法算法
EM算法 概率模型參數估計 Nan \, 含隱變量概率模型 極大似然估計,極大後驗概率估計 對數似然損失 迭代算法
隱馬爾科夫模型 標註 生成模型,概率模型 觀測序列與狀態序列的聯合概率分佈模型 極大似然估計,極大後驗概率估計 對數似然損失 概率計算公式,EM算法
條件隨機場 標註 判別模型,概率and非概率模型 狀態序列條件下觀測序列的條件概率分佈,對數線性模型 極大似然估計,正則化極大似然估計 對數似然損失 改進的迭代尺度算法,梯度下降,擬牛頓法

參考資料:

  • 李航 統計學習方法
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章