機器學習方法篇(22)------模型聚類法

原創

2018-08-22 07:59

● 每週一言

思考如腳印，踩的越深走的越穩。

導語

前面已經講完三種聚類方法，剩下的模型聚類法，主要分爲基於概率模型聚類和基於神經網絡模型聚類兩種。

其中基於概率模型的聚類方法較爲流行。而在概率模型聚類法中，最典型、也最常用的就是高斯混合模型GMM了。那麼，GMM是什麼，又是如何聚類的？

高斯混合模型（GMM，Gaussian Mixture Models），顧名思義由高斯模型組成，而高斯模型就是我們常說的正態分佈，因此GMM可以理解爲幾個正態分佈的疊加。

基於GMM的聚類，和K-means聚類有點相似，具體算法流程如下：

1> 隨機生成k個高斯分佈作爲初始的k個類別；
2> 對每一個樣本數據點，計算其在各個高斯分佈下的概率；
3> 對每一個高斯分佈，樣本數據點得到的不同概率值作爲權重，加權計算並更新其均值和方差；
4> 重複以上步驟2和3，直到每一個高斯分佈的均值和方差不再發生變化或已滿足迭代次數。

以下展示了一維數據集的GMM聚類執行圖例（圖片源自互聯網）。

如果樣本數據集是多維情況，需要計算協方差把不同維度之間的關聯性考慮進來。

GMM聚類和K-means一樣，分類受到初始值影響較大。不過GMM聚類完的樣本可以同時屬於多個類別，這種聚類又稱爲 軟聚類。

其他的模型聚類法還有 基於PageRank的軟聚類法，和 基於神經網絡模型的SOM聚類法 等，有興趣的讀者可自行查閱文獻資料。

以上便是常見的模型聚類法GMM聚類的講解，敬請期待下節內容。

感謝各位的耐心閱讀，後續文章於每週日奉上，敬請期待。歡迎大家關注小鬥公衆號 對半獨白！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.