本文建模系列值三：LDA感悟

原創

2020-02-20 12:58

LDA：Latent Dirichlet Allocation 是一個很著名的文本模型，最初是在2003年被一羣大牛提出的，包括David M.Blei 、Andrew Y.Ng等。和之前的pLSA文本模型相比，LDA算是貝葉斯觀點的pLSA,所謂貝葉斯觀點，就是什麼都是不確定的，不像pLSA中的p(z|d)，雖然是個隱變量，但是還是確定的值，然而對於貝葉斯學派觀點，其概率是不確定的，該概率符合某種分佈，在LDA中是服從Dirichlet分佈。在【1】這篇論文中，作者說了pLSA不是well-defined的生成模型（不太理解）。

對於LDA，因爲我本身不是搞主題模型的，而是想利用主題模型可以壓縮文檔特徵向量的維度，從而生成文本分類的文檔向量。因爲個人數學功底不是很紮實，另外作爲一個科研能力一般的渣碩，理解LDA確實有難度，這幾天參看了 “LDA數學八卦”以及Gibbs採樣的一些知識，本來想徹徹底底搞懂的，無奈看了好幾天，也只能看出個大概輪廓，本文不打算闡述LDA高深的數學原理，各位可以參看LDA論文原文和下面【2】【3】幾個參考文獻。

對於LDA，因爲各個大神的博客已經很詳細了，July大神就專門撰文寫過LDA，寫的詳細深入，對於July博文中間的數學推導，我實在是無愛，不過文末的作者的一句話倒是給我很大的啓發：“LDA其實就是貝葉斯觀點的pLSA”。對於LDA去粗取精，其實就是這個道理。所以這篇博文主要是講講我對LDA的一些思想的體會，而不是着重於具體過程。

衆所周知，在這個領域，存在兩個學派，頻率派和貝葉斯派。頻率派認爲所有的事情的概率都是確定的（即使未知）。但是對於貝葉斯派，其主要的觀點就是所有的事情都不確定，任何事情都存在一個分佈。對於LDA，其就認爲一篇文檔的主題分佈是不確定的，其分佈符合一個分佈，稱之爲dirichlet分佈，同樣其認爲一個主題下面的詞語分佈也是不確定的，其分佈也符合dirichlet分佈。知道了這兩點，明白了這兩點，LDA模型結構也就基本理解了。看下面的圖：

上圖是LDA的經典模型，用平白的話說，LDA的一篇文章的生成過程是：

上圖是LDA數學八卦中的LDA模型介紹，LDA模型的文檔生成過程就是這樣。

相比於pLSA，其不過是爲p(z|d)和p(w|z)增加了一個Dirichlet分佈，但是結果會比pLSA模型強大的多，當然其數學的複雜度也增長了不止一個檔次。

LDA雖然推導過程複雜，但是其結果卻非常優雅，這也是LDA神奇之處，用最簡單的結論打敗你。這也是數學的優美之處（雖然我對數學並不是很有感覺）。

【1】Latent Dirichlet Allocation.David M.Blei ,Andrew Y.Ng

【2】LDA數學八卦，靳志輝

【3】Gibbs Sampling for the Uninitiated

luchi007 博客專家

發佈了108 篇原創文章 · 獲贊 166 · 訪問量 43萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

本文建模系列值三：LDA感悟

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

基於gibbsLDA的文本分類

深度學習之四：使用Theano編寫神經網絡

AutoML之NAS

深度學習之二：CNN推導

神經網絡更新參數的幾種方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結