高斯混合模型

這篇討論使用期望最大化算法(Expectation-Maximization)來進行密度估計(density estimation)。

      與k-means一樣,給定的訓練樣本是clip_image002,我們將隱含類別標籤用clip_image004表示。與k-means的硬指定不同,我們首先認爲clip_image004[1]是滿足一定的概率分佈的,這裏我們認爲滿足多項式分佈,clip_image006,其中clip_image008clip_image004[2]有k個值{1,…,k}可以選取。而且我們認爲在給定clip_image004[3]後,clip_image010滿足多值高斯分佈,即clip_image012。由此可以得到聯合分佈clip_image014

      整個模型簡單描述爲對於每個樣例clip_image010[1],我們先從k個類別中按多項式分佈抽取一個clip_image016,然後根據clip_image016[1]所對應的k個多值高斯分佈中的一個生成樣例clip_image010[2],。整個過程稱作混合高斯模型。注意的是這裏的clip_image016[2]仍然是隱含隨機變量。模型中還有三個變量clip_image018clip_image020。最大似然估計爲clip_image022。對數化後如下:

      clip_image023

      這個式子的最大值是不能通過前面使用的求導數爲0的方法解決的,因爲求的結果不是close form。但是假設我們知道了每個樣例的clip_image016[3],那麼上式可以簡化爲:

      clip_image024

       這時候我們再來對clip_image018[1]clip_image020[1]進行求導得到:

      clip_image025

      clip_image027就是樣本類別中clip_image029的比率。clip_image031是類別爲j的樣本特徵均值,clip_image033是類別爲j的樣例的特徵的協方差矩陣。

實際上,當知道clip_image016[4]後,最大似然估計就近似於高斯判別分析模型(Gaussian discriminant analysis model)了。所不同的是GDA中類別y是伯努利分佈,而這裏的z是多項式分佈,還有這裏的每個樣例都有不同的協方差矩陣,而GDA中認爲只有一個。

      之前我們是假設給定了clip_image016[5],實際上clip_image016[6]是不知道的。那麼怎麼辦呢?考慮之前提到的EM的思想,第一步是猜測隱含類別變量z,第二步是更新其他參數,以獲得最大的最大似然估計。用到這裏就是:

循環下面步驟,直到收斂: {

      (E步)對於每一個i和j,計算

                  clip_image035

      (M步),更新參數:

                  clip_image036

}

      在E步中,我們將其他參數clip_image038看作常量,計算clip_image040的後驗概率,也就是估計隱含類別變量。估計好後,利用上面的公式重新計算其他參數,計算好後發現最大化最大似然估計時,clip_image042值又不對了,需要重新計算,周而復始,直至收斂。

      clip_image042[1]的具體計算公式如下:

      clip_image043

      這個式子利用了貝葉斯公式。

      這裏我們使用clip_image045代替了前面的clip_image047,由簡單的0/1值變成了概率值。

      對比K-means可以發現,這裏使用了“軟”指定,爲每個樣例分配的類別clip_image040[1]是有一定的概率的,同時計算量也變大了,每個樣例i都要計算屬於每一個類別j的概率。與K-means相同的是,結果仍然是局部最優解。對其他參數取不同的初始值進行多次計算不失爲一種好方法。

      雖然之前再K-means中定性描述了EM的收斂性,仍然沒有定量地給出,還有一般化EM的推導過程仍然沒有給出。下一篇着重介紹這些內容。

上面提到的混合高斯模型的參數clip_image109clip_image111計算公式都是根據很多假定得出的,有些沒有說明來由。爲了簡單,這裏在M步只給出clip_image113clip_image115的推導方法。

E步很簡單,按照一般EM公式得到:

      clip_image116

      簡單解釋就是每個樣例i的隱含類別clip_image055[2]爲j的概率可以通過後驗概率計算得到。

      在M步中,我們需要在固定clip_image072[4]後最大化最大似然估計,也就是

      clip_image118

      這是將clip_image120的k種情況展開後的樣子,未知參數clip_image122clip_image124

      固定clip_image126clip_image128,對clip_image130求導得

      clip_image131

      等於0時,得到

      clip_image132

      這就是我們之前模型中的clip_image115[1]的更新公式。

      然後推導clip_image126[1]的更新公式。看之前得到的

      clip_image133

      在clip_image113[1]clip_image115[2]確定後,分子上面的一串都是常數了,實際上需要優化的公式是:

      clip_image134

      需要知道的是,clip_image126[2]還需要滿足一定的約束條件就是clip_image136

      這個優化問題我們很熟悉了,直接構造拉格朗日乘子。

      clip_image137

      還有一點就是clip_image139,但這一點會在得到的公式裏自動滿足。

      求導得,

      clip_image141

      等於0,得到

      clip_image142

      也就是說clip_image143再次使用clip_image136[1],得到

      clip_image144

      這樣就神奇地得到了clip_image146

      那麼就順勢得到M步中clip_image126[3]的更新公式:

      clip_image147

      clip_image111[1]的推導也類似,不過稍微複雜一些,畢竟是矩陣。結果在之前的混合高斯模型中已經給出。


轉自:http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006924.html


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章