ML—廣義線性模型導論

Andrew Zhang
Tianjin Key Laboratory of Cognitive Computing and Application
Tianjin University
Nov 3, 2015

本文主要講解我對GLM的理解,並將GLM推廣到邏輯迴歸,線性迴歸和Softmax迴歸理論中。

一、指數分佈族(ExponentialFamily)
如果一個分佈密度函數可以寫成如下的形式
p(y,η)=b(y)eηTT(y)a(η)(1-1)
其中,η 被稱爲自然參數,標準參數或者規範參數;T(y) 被稱爲充分統計量;而a(η) 一般被稱爲對數分函數。T,a,b 確定了參數爲η 的一種分佈函數。

二、GLM的三個假設
1、線性模型的假設
線性模型有如下三條假設
y=xβ+ϵ
E(ϵ)=0
cov(ϵ,ϵ)=σ2Inn
(2)
2、廣義線性模型的三條假設
廣義線性模型需要滿足y關於x的條件概率和模型設定三個假設:
假設一:y|x;θ ~ExponentialFamily(η) 對於給定的xθ ,y 的分佈服從參數爲η 的指數分佈族
假設二:對於給定的x ,目標是預測給定xT(y) 的期望
假設三:自然參數η 和輸入x 是線性關係:η=θTx (如果η 是向量,那麼ηi=θTix )
3、對GLM三個假設的說明
3.1 假設1的解釋
假設一講的是廣義線性模型的核心。廣義線性模型廣體現在y 服從的是一個指數分佈族。簡單來說,就是對於所有的樣本y 服從的是同一個分佈,只不過不同樣本之間這個分佈的參數不同。例如若所有樣本的y 都是伯努利分佈,則不同的樣本分別對應與x 相關的ϕ (邏輯迴歸),若若所有樣本的y 都是正態分佈,則不同的樣本分別對應與x 相關的μ (最小二乘)。。。。。
3.2 假設2的解釋
主要是說GLM的輸出。輸出的hθ(x)=E[T(y)|x]
3.3 假設3的解釋
對於假設3,意味着在任何出現η 的地方,我們都需要用η=θTx 或者ηi=θTix 替換,以此轉化爲關於輸入x 的線性關係。

三、GLM參數求解
對於GLM模型參數θ 的求解,一般都要利用極大似然估計,求解出使得采樣樣本取得最大概率的參數θ
對於訓練樣本(x1,y1),(x2,y2),...,(xm,ym) ,似然函數爲
L(θ)=mi=1p(yi|xi;θ)(3)
後面只需要對公式(3)進行求解,得到使似然函數達到極大值時對應的θ 即可。

四、GLM—邏輯迴歸
在邏輯迴歸中,假設類別標籤服從伯努利分佈Bernouli(ϕ) ,即p(y=1;ϕ)=ϕ,p(y=0;ϕ)=1ϕ ,在這裏ϕx 有關。也就是說不同的輸入x 可以得到不同的伯努利分佈,這就是邏輯迴歸的伯努利分佈族。
首先我們來推導一下,證明伯努利分佈~Bernouli(ϕ) 滿足指數分佈族形式(1)。
p(y;ϕ)=ϕy(1ϕ)1y
    =eylogϕ+(1y)log(1ϕ)
    =eylogϕ1ϕ+log(1ϕ)
    (4-1)
對比式(1)可得
η=logϕ1ϕ
T(y)=y
a(η)=log(1ϕ)
b(y)=1
根據上式η=logϕ1ϕ ,我們可以得到
ϕ=11+eη(4-2)
根據GLM假設3—η=θTx ,可以進一步的得到
ϕ=11+eθTx(4-3)
公式4-3實際上說的邏輯迴歸中樣本特徵x 與樣本標籤所服從的伯努利分佈參數ϕ 之間的關係。這裏也解釋了爲什麼邏輯迴歸要採用單極型函數。
對於指數分佈族形式得到的式子T(y)=y ,可以得到GLM模型的輸出hθ(x) 如下關係
hθ(x)=E[y|x]=ϕ1+(1ϕ)0=ϕ(4-4)
結合公式(4-3)可得
hθ(x)=ϕ=11+eθTx(4-5)
綜上,可得邏輯迴歸模型的數學表達形式如下:
p(y|x;θ)=p(y;ϕ)=ϕy(1ϕ)1y=hθ(x)y(1hθ(x))1y(4-6)
後面的工作就是對於訓練樣本訓練模型得到參數θ ,然後對測試樣本進行預測即可。邏輯迴歸模型訓練採用極大似然估計就可以,似然函數如下,
L(θ)=mi=1p(yi|xi;θ)=mi=1hθ(xi)yi(1hθ(xi))1yi(4-7)

五、GLM—線性迴歸
對於線性迴歸的廣義線性模型解釋中,需要假設因變量y 服從正態分佈N(μ,σ2)
首先還是先來看看高斯分佈的指數分佈族變換
y|x ~N(μ,σ2) ,我們考慮簡單情況σ2=1 所以有下式
p(y;μ)=12πexp(12(yμ)2)
    =12πexp(12y2)exp(μy12μ2)
    (5-1)
對應於式子1,可得到如下表達式:
η=μ
T(y)=y
a(η)=12μ2=12η2
b(y)=12πexp(12y2)
根據GLM假設3—η=θTx ,可以進一步的得到
μ=η=θTx(5-2)
接下來,利用GLM的第二個假設可以得到GLM模型的輸入hθ(x) 如下關係
hθ(x)=E[y|x;θ]=μ=η=θTx(5-3)
綜上可得線性迴歸模型的數學表達形式如下:
p(y|x;θ)=12πexp((yμ)22)=12πexp((yθTx)22)(5-4)
接下來,只需要利用極大似然法求解參數θ 即可。如果知道線性迴歸概率解釋的話,會發現這個就是線性迴歸的概率解釋是一樣的,很容易就轉化爲最小二乘形式了。

六、GLM—SoftMax迴歸
SoftMax可以看成是伯努利分佈的擴展,伯努利是二分類,SoftMax是多分類。同理就可以得到SoftMax迴歸所需要的關於類別標籤y 的分佈假設了—多維伯努利分佈。
由於SoftMax迴歸稍微有點麻煩,首先來對用到的符號進行說明。
p(y=i)=ϕi,i=1,2,...,kyki=1ϕi=1 因此對於k分類問題只需要k-1個參數,但是爲了後面表示方便我們仍舊使用ϕkϕk=1k1i=1ϕi
爲了在指數分佈族表示的時候更清晰,我們引入(k-1)*1維向量T
T(1)=[1,0,0,...,0,0]T
T(2)=[0,1,0,...,0,0]T
T(k1)=[0,0,0,...,0,1]T
……
T(k)=[0,0,0,...,0,0]T
我們用(T(y))i 表示T(y) 的第i個元素,1{y=i} 返回一個0或1,表示類別是否屬於i,有(T(y))i=1{y=i} 下面就會發現這樣表示會使表述很清晰。
對於SoftMax,第一步仍舊是轉換爲指數分佈族形式
p(y;ϕ)=ϕ1{y=1}1ϕ1{y=2}2...ϕ1{y=k}k
    =ϕ1{y=1}1ϕ1{y=2}2...ϕ1k1i=11{y=i}k
    =ϕ(T(y))11ϕ(T(y))22...ϕ1k1i=1(T(y))ik
    =exp((T(y))1log(ϕ1)+(T(y))2log(ϕ2)+...+(1k1i=1(T(y))i)log(ϕk))
    =exp((T(y))1log(ϕ1/ϕk)+(T(y))2log(ϕ2/ϕk)+...+(T(y))k1log(ϕk1/ϕk)+log(ϕk))
    =exp(ηT(T(y))+log(ϕk))
(6-1)
其中,
η=(log(ϕ1/ϕk),log(ϕ2/ϕk),..,log(ϕk1/ϕk))T
a(η)=log(ϕk)
b(y)=1
ηi=log(ϕi/ϕk)k=1,2,...,k1 ,這裏添加一個ηk=log(ϕk/ϕk)=0
ϕi=ϕkeηi
又因爲ki=1ϕi=1
ϕk=1ki=1eηi
所以SoftMax對應的GLM一般過程第一步得到
ϕi=eηiki=1eηi(6-2)
由GLM假設3的向量形式
ηi=θTix(6-3)
由於只有k-1個參數,這裏僅對於i=1,2,...,k1 成立,爲了保持一致,根據公式6-2可以令ηk=θTkx=0
將公式(6-2,6-3)帶公式(6-1)便可以得到Softmax迴歸模型的數學表達式如下
p(y|x;θ)=...()(6-4)
對於模型的求解,利用訓練樣本求解極大似然估計即可訓練模型得到模型參數θi
在這裏寫一個簡單的式子,就是模型對於屬於x 判斷輸出的概率計算公式如下:
p(y=i|x;θ)=ϕi=eηiki=1eηi=eθTixki=1eθTix(6-5)
利用GLM第二條假設可知Softmax模型的輸出形式如下:
hθ(x)=E[T(y)|x;θ]
     =[ϕ1,ϕ1,,...,ϕk1]T
(6-6)
七、GLM小結
總結一下GLM會發現GLM的精髓體現在GLM的第一條假設裏面。利用一個分佈族來建模,對於不同的輸入x 分別對應不同的分佈族參數。而模型的輸出由GLM的第二條假設—模型期望來決定。而GLM的第三條假設用來確定模型的線性性質。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章