高斯混合模型

原創

2020-02-26 11:33

這篇討論使用期望最大化算法（Expectation-Maximization）來進行密度估計（density estimation）。

與k-means一樣，給定的訓練樣本是，我們將隱含類別標籤用表示。與k-means的硬指定不同，我們首先認爲是滿足一定的概率分佈的，這裏我們認爲滿足多項式分佈，，其中，有k個值{1,…,k}可以選取。而且我們認爲在給定後，滿足多值高斯分佈，即。由此可以得到聯合分佈。

整個模型簡單描述爲對於每個樣例，我們先從k個類別中按多項式分佈抽取一個，然後根據所對應的k個多值高斯分佈中的一個生成樣例，。整個過程稱作混合高斯模型。注意的是這裏的仍然是隱含隨機變量。模型中還有三個變量和。最大似然估計爲。對數化後如下：

這個式子的最大值是不能通過前面使用的求導數爲0的方法解決的，因爲求的結果不是close form。但是假設我們知道了每個樣例的，那麼上式可以簡化爲：

這時候我們再來對和進行求導得到：

就是樣本類別中的比率。是類別爲j的樣本特徵均值，是類別爲j的樣例的特徵的協方差矩陣。

實際上，當知道後，最大似然估計就近似於高斯判別分析模型（Gaussian discriminant analysis model）了。所不同的是GDA中類別y是伯努利分佈，而這裏的z是多項式分佈，還有這裏的每個樣例都有不同的協方差矩陣，而GDA中認爲只有一個。

之前我們是假設給定了，實際上是不知道的。那麼怎麼辦呢？考慮之前提到的EM的思想，第一步是猜測隱含類別變量z，第二步是更新其他參數，以獲得最大的最大似然估計。用到這裏就是：

循環下面步驟，直到收斂： {

（E步）對於每一個i和j，計算

（M步），更新參數：

}

在E步中，我們將其他參數看作常量，計算的後驗概率，也就是估計隱含類別變量。估計好後，利用上面的公式重新計算其他參數，計算好後發現最大化最大似然估計時，值又不對了，需要重新計算，周而復始，直至收斂。

的具體計算公式如下：

這個式子利用了貝葉斯公式。

這裏我們使用代替了前面的，由簡單的0/1值變成了概率值。

對比K-means可以發現，這裏使用了“軟”指定，爲每個樣例分配的類別是有一定的概率的，同時計算量也變大了，每個樣例i都要計算屬於每一個類別j的概率。與K-means相同的是，結果仍然是局部最優解。對其他參數取不同的初始值進行多次計算不失爲一種好方法。

雖然之前再K-means中定性描述了EM的收斂性，仍然沒有定量地給出，還有一般化EM的推導過程仍然沒有給出。下一篇着重介紹這些內容。

上面提到的混合高斯模型的參數和計算公式都是根據很多假定得出的，有些沒有說明來由。爲了簡單，這裏在M步只給出和的推導方法。

E步很簡單，按照一般EM公式得到：

簡單解釋就是每個樣例i的隱含類別爲j的概率可以通過後驗概率計算得到。

在M步中，我們需要在固定後最大化最大似然估計，也就是

這是將的k種情況展開後的樣子，未知參數和。

固定和，對求導得

等於0時，得到

這就是我們之前模型中的的更新公式。

然後推導的更新公式。看之前得到的

在和確定後，分子上面的一串都是常數了，實際上需要優化的公式是：

需要知道的是，還需要滿足一定的約束條件就是。

這個優化問題我們很熟悉了，直接構造拉格朗日乘子。

還有一點就是，但這一點會在得到的公式裏自動滿足。

求導得，

等於0，得到

也就是說再次使用，得到

這樣就神奇地得到了。

那麼就順勢得到M步中的更新公式：

的推導也類似，不過稍微複雜一些，畢竟是矩陣。結果在之前的混合高斯模型中已經給出。

轉自：http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006924.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Opal 機器學習平臺：愛奇藝數智一體化實踐

01 綜述 Opal 是愛奇藝大數據團隊研發的機器學習平臺，包含特徵生產、樣本構建、模型訓練、模型部署在內的多環節 Bigdata + AI 開發服務，內置多種訓練鏡像、

愛奇藝技術產品團隊

2024-06-01 02:21:16

基於對比稀疏擾動技術的時間序列解釋框架 ContraLSP

開篇近日，由阿里雲計算平臺大數據基礎工程技術團隊主導，與南京大學、賓夕法尼亞州立大學、清華大學等高校合作，解釋時間序列預測模型的論文《Explaining Time Series via Contrastive and Locally

2024-06-01 00:25:50

兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

還能報名！風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國！

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-29 02:18:59

AI安全志：英國AI騙保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

文心大模型免費辣，動手搓點啥慶祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

五款擴展組件齊發 —— Volcano、Keda、Crane-scheduler 等，邀你體驗

今年 3 月，KubeSphere 啓動了首屆擴展組件開發者訓練營，吸引了 60 名開發者報名。經過一個半月的密集培訓和實戰演練，這些開發者成功打造了五款創新的擴展組件，現已全部上架至 KubeSphere Marketplace，歡迎大家

2024-05-23 11:17:40

基於 Milvus + LlamaIndex 實現高級 RAG

隨着大語言模型（LLM）技術的發展，RAG（Retrieval Augmented Generation）技術得到了廣泛探討和研究，越來越多的高級 RAG 檢索方法也隨之被人發現，相對於普通的 RAG 檢索，高級 RAG 通過更深化的技術細

2024-05-22 21:25:18

站在岸上學不會游泳 | 算法校招生的高效成長總結

在這個由數據編織、由算法驅動的時代，AI大模型正成爲推動社會進步的重要力量。我們不僅是變革的見證者，更是推動者和塑造者。感謝零售UP技術人欄目的邀請，本文藉此機會回顧一下自己的算法之路上的一些故事和思考，希望能帶給讀者一些幫助。介紹自

2024-05-22 11:56:42

全球廠商之最，華爲17篇論文入選國際數據庫頂會ICDE

本文分享自華爲雲社區《全球廠商之最，華爲GaussDB&GeminiDB，17篇論文入選國際數據庫頂會ICDE》，作者：GaussDB 數據庫。 5月13-17日，國際數據庫頂級學術會議 ICDE 2024 於荷蘭烏得勒支舉行。華爲Gau

2024-05-22 10:58:13

Gen AI 連接非結構化數據，Unstructured Data Meetup 第二場官宣杭州！

定了！6 月 15 日，備受硅谷開發者喜愛的 Unstructured Data Meetup 第二場將在杭州舉辦！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 202

2024-05-20 21:25:07

探索未知：風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過

2024-05-15 21:26:01

爲程序員和新手準備的 8 大 Python 工具

Python 是一種開源編程語言，用於 Web 編程、數據科學、人工智能和許多科學應用。學習 Python 使程序員能夠專注於解決問題，而不是專注於語法，其豐富的庫賦予它完成偉大任務所需的力量。 1) IDLE 安裝 Python 時

2024-05-14 01:06:43

24小時熱門文章

最新文章

最新評論文章