1. 模型表示
高斯混合模型是指具有如下形式的概率分佈模型:其中,是權重係數,滿足;
是高斯單模型(Gaussian single model, GSM)的概率密度函數:
2. 模型解釋
高斯混合模型(Gaussian mixture model, GMM)並不是什麼新奇的東西,它的本質就是融合幾個單高斯模型,來使得模型更加複雜,從而產生更復雜的樣本。理論上,如果某個高斯混合模型融合的高斯模型個數足夠多,它們之間的權重設定得足夠合理,這個高斯混合模型可以擬合任意分佈的樣本。
以簡單的一維混合高斯模型爲例:
3. 模型求解:EM算法
3.1 期望最大化(EM)算法
- EM算法只需要足夠的訓練數據,定義一個最大化函數Q,剩下的交給計算機迭代訓練就可以了。
- E過程:期望值計算過程
- M過程:重新計算模型參數,以最大化期望值
- EM算法保證算法收斂到局部最優點。如果目標函數是凸函數,則能收斂到全局最優點。
3.2 模型求解
假設我們採樣得到一組樣本 ,而且我們知道變量Y服從高斯分佈(其他變量分佈類似),我們的目的就是找到一個合適的高斯分佈,使得這個高斯分佈能產生這組樣本的可能性儘可能大。
3.2.1 明確隱變量,寫出完全數據的對數似然函數
隱變量描述的就是:每一次採樣,選擇第k個高斯模型的概率
爲什麼不用極大似然估計的方法來解GMM模型:無法求導
仔細觀察上圖(9.28)式可以發現,對數似然函數裏面,括號裏面還有求和。實際上沒有辦法通過求導的方法來求這個對數似然函數的最大值。
極大似然估計
1、求最大似然估計量的一般步驟:
(1)寫出似然函數;
(2)對似然函數取對數,並整理;
(3)求導數;
(4)解似然方程。
2、最大似然估計的特點:
(1)比其他估計方法更加簡單;
(2)收斂性:無偏或者漸近無偏,當樣本數目增加時,收斂性質會更好;
(3)如果假設的類條件概率模型正確,則通常能獲得較好的結果。但如果假設模型出現偏差,將導致非常差的估計結果。
3、極大似然估計的例子
3.2.2 EM算法的E步:確定Q函數(對數似然函數的期望)
3.2.3 EM算法的M步:求偏導
參考教程
- 詳解EM算法與混合高斯模型(Gaussian mixture model, GMM) - 林立民愛洗澡 - CSDN博客
https://blog.csdn.net/lin_limin/article/details/81048411 - 李航《統計學習方法》