個人學習筆記（十四）高斯混合模型中的EM算法

原創

2019-08-28 21:08

因爲在第三次比賽中用到了高斯混合模型GMM，這裏根據我自己的理解對GMM內部的EM算法做一個簡要的複習。

EM算法概述

先來回顧一下EM算法。EM算法是通過迭代求 $L(\theta)=logP(Y|\theta)$ 的極大似然估計的方法，即我們的目標是要找到一個 $\theta$ ，使得 $logP(Y|\theta)$ 最大。
首先選擇參數初值 $\theta^{(0)}$ ，開始迭代。在第 $i+1$ 次迭代的E步計算 $Q$ 函數：
$Q(\theta,\theta^{(i)})=E_Z[logP(Y,Z|\theta)|Y,\theta^{(i)}]=\sum_ZP(Z|Y,\theta^{(i)})logP(Y,Z|\theta)$ 接着在M步計算使 $Q$ 函數極大化的 $\theta$ 作爲 $\theta^{(i+1)}$ ：
$\theta^{(i+1)}=\arg\max_\theta Q(\theta,\theta^{(i)})$ 可以看到，每次迭代其實都是在求 $Q$ 函數及其極大。劃重點， $Q$ 函數是完全數據的對數似然函數 $logP(Y,Z|\theta)$ 關於未觀測數據 $Z$ 的條件概率分佈 $P(Z|Y,\theta^{(i)})$ 的期望。
爲什麼每一步求 $Q$ 函數的極大，最後就能得到 $L(\theta)$ 的極大呢？一句話概括， $Q$ 函數是 $L(\theta)-L(\theta^{(i)})$ 的下界，一步步求 $Q$ 函數的極大，意味着一步步的提高 $L(\theta)$ 。

$Q$ 函數推導

假設在第 $i$ 次迭代後 $\theta$ 的估計值是 $\theta^{(i)}$ ，考慮下面 $L(\theta)-L(\theta^{(i)})$ 的表達式
$L(\theta)-L(\theta^{(i)})=logP(Y|\theta)-logP(Y|\theta^{(i)})$ 在 $L(\theta)$ 中加入隱變量 $Z$ ，即令
$P(Y|\theta)=\sum_ZP(Y,Z|\theta)$ 代入 $L(\theta)$ 得
$L(\theta)=log\sum_ZP(Y,Z|\theta)$ 爲了用Jensen不等式將log放入 $\sum$ 內部，同時乘以、除以一個 $P(Z|Y,\theta^{(i)})$ 得
$L(\theta)=log\sum_ZP(Z|Y,\theta^{(i)})\frac{P(Y,Z|\theta)}{P(Z|Y,\theta^{(i)})}$ 利用Jensen不等式得到 $L(\theta)$ 的下界
$L(\theta)\geq\sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y,Z|\theta)}{P(Z|Y,\theta^{(i)})}$ 將 $L(\theta)$ 的下界代入 $L(\theta)-L(\theta^{(i)})$ 中，得
$L(\theta)-L(\theta^{(i)})\geq\sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y,Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}=\sum_ZP(Z|Y,\theta^{(i)})log\frac{P(Y,Z|\theta)}{P(Y,Z|\theta^{(i)})}$ 由於上式可轉化爲
$L(\theta)-L(\theta^{(i)})\geq\sum_ZP(Z|Y,\theta^{(i)})logP(Y,Z|\theta)-\sum_ZP(Z|Y,\theta^{(i)})logP(Y,Z|\theta^{(i)})$ 因爲我們的目標是找到一個 $\theta$ 使 $L(\theta)-L(\theta^{(i)})$ 的下界極大，因此不等式右邊的後半部分可以看作常數，我們的目標便轉化爲了
$\theta^{(i+1)}=\arg\max_\theta\sum_ZP(Z|Y,\theta^{(i)})logP(Y,Z|\theta)$ 這樣， $Q$ 函數就出來了。

GMM中的EM算法

高斯混合模型的概率分佈表達式是這樣的
$P(y|\theta)=\sum_{k=1}^K\alpha_k\phi(y|\theta_k)$ 共有 $K$ 個高斯分佈，概率 $P(y|\theta)$ 是 $K$ 個概率分佈密度的加權和。每個高斯分佈共有3個參數需要求取， $\alpha_k$ 代表每個高斯分佈的權值， $\theta_k=(\mu_k,\sigma_k^2)$ 代表每個高斯分佈的均值和方差。
那麼如果我們現在有一系列的觀測點 $Y=(y_1,y_2,\cdots,y_N)$ ，如何用EM算法求取高斯混合模型的參數呢？同樣是E步求 $Q$ 函數，M步求極大，但這裏不寫推導過程，而是去感性理解。
首先取參數的初始值 $\alpha_k,\mu_k,\sigma_k^2$ ，開始迭代。在GMM中，隱變量 $Z$ 代表了每個觀測點屬於哪個高斯分佈，所以在E步，我們對隱變量 $Z$ 在給定樣本下的條件分佈求期望，也就是求每個觀測點屬於各高斯分佈的概率，設點 $y_j$ 屬於高斯分佈 $k$ 的概率爲 $\hat \gamma_{jk}$ ，則
$\hat\gamma_{jk}=\frac{\alpha_k\phi(y_j|\theta_k)}{\sum_{k=1}^K\alpha_k\phi(y_j|\theta_k)},　　j=1,2,\cdots,N;　k=1,2,\cdots,K$ 到了M步，我們可以用求出來的 $\hat\gamma_{jk}$ 去重新計算各高斯分佈的參數，這本質上是一個求期望極大的過程。針對第 $k$ 個高斯分佈的權值 $\alpha_k$ ，它應該等於每個觀測點屬於此高斯分佈的概率的平均值，即
$\hat\alpha_k=\frac{\sum_{j=1}^N\hat\gamma_{jk}}{N},　　k=1,2,\cdots,K$ 針對第 $k$ 個高斯分佈的均值 $\mu_k$ ，它應該等於每個觀測點關於其屬於第 $k$ 個高斯分佈的概率的期望，即
$\hat\mu_k=\frac{\sum_{j=1}^N\hat\gamma_{jk}y_j}{\sum_{j=1}^N\hat\gamma_{jk}},　　k=1,2,\cdots,K$ 最後是第 $k$ 個高斯分佈的方差 $\sigma_k^2$ ，它應該等於每個觀測點與均值 $\mu_k$ 之差的平方關於其屬於第 $k$ 個高斯分佈的概率的期望，即
$\hat\sigma_k^2=\frac{\sum_{j=1}^N\hat\gamma_{jk}(y_j-\mu_k)^2}{\sum_{j=1}^N\hat\gamma_{jk}},　　k=1,2,\cdots,K$
得到了每個高斯分佈當前的 $\hat\alpha_k,\hat\mu_k,\hat\sigma_k^2$ 後，返回E步繼續迭代。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

個人學習筆記（十四）高斯混合模型中的EM算法

EM算法概述

$Q$ 函數推導

GMM中的EM算法

python gdal 安裝使用（Windows， python 3.6.8）

個人學習筆記（十）提升方法

個人學習筆記（六）邏輯斯諦迴歸與最大熵模型

個人學習筆記（九）非線性支持向量機與SMO算法

個人學習筆記（十二）隱馬爾科夫模型

個人學習筆記（十三）條件隨機場

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

個人學習筆記（十四）高斯混合模型中的EM算法

EM算法概述

QQQ函數推導

GMM中的EM算法

$Q$ 函數推導