本文建模系列值三:LDA感悟

LDA:Latent Dirichlet Allocation 是一個很著名的文本模型,最初是在2003年被一羣大牛提出的,包括David M.Blei 、Andrew Y.Ng等。和之前的pLSA文本模型相比,LDA算是貝葉斯觀點的pLSA,所謂貝葉斯觀點,就是什麼都是不確定的,不像pLSA中的p(z|d),雖然是個隱變量,但是還是確定的值,然而對於貝葉斯學派觀點,其概率是不確定的,該概率符合某種分佈,在LDA中是服從Dirichlet分佈。在【1】這篇論文中,作者說了pLSA不是well-defined的生成模型(不太理解)。

 

對於LDA,因爲我本身不是搞主題模型的,而是想利用主題模型可以壓縮文檔特徵向量的維度,從而生成文本分類的文檔向量。因爲個人數學功底不是很紮實,另外作爲一個科研能力一般的渣碩,理解LDA確實有難度,這幾天參看了 “LDA數學八卦”以及Gibbs採樣的一些知識,本來想徹徹底底搞懂的,無奈看了好幾天,也只能看出個大概輪廓,本文不打算闡述LDA高深的數學原理,各位可以參看LDA論文原文和下面【2】【3】幾個參考文獻。

 

對於LDA,因爲各個大神的博客已經很詳細了,July大神就專門撰文寫過LDA,寫的詳細深入,對於July博文中間的數學推導,我實在是無愛,不過文末的作者的一句話倒是給我很大的啓發:“LDA其實就是貝葉斯觀點的pLSA”。對於LDA去粗取精,其實就是這個道理。所以這篇博文主要是講講我對LDA的一些思想的體會,而不是着重於具體過程。

 

衆所周知,在這個領域,存在兩個學派,頻率派和貝葉斯派。頻率派認爲所有的事情的概率都是確定的(即使未知)。但是對於貝葉斯派,其主要的觀點就是所有的事情都不確定,任何事情都存在一個分佈。對於LDA,其就認爲一篇文檔的主題分佈是不確定的,其分佈符合一個分佈,稱之爲dirichlet分佈,同樣其認爲一個主題下面的詞語分佈也是不確定的,其分佈也符合dirichlet分佈。知道了這兩點,明白了這兩點,LDA模型結構也就基本理解了。看下面的圖:



 

上圖是LDA的經典模型,用平白的話說,LDA的一篇文章的生成過程是:



 

上圖是LDA數學八卦中的LDA模型介紹,LDA模型的文檔生成過程就是這樣。

 

相比於pLSA,其不過是爲p(z|d)和p(w|z)增加了一個Dirichlet分佈,但是結果會比pLSA模型強大的多,當然其數學的複雜度也增長了不止一個檔次。

 

LDA雖然推導過程複雜,但是其結果卻非常優雅,這也是LDA神奇之處,用最簡單的結論打敗你。這也是數學的優美之處(雖然我對數學並不是很有感覺)。

 

【1】Latent Dirichlet Allocation.David M.Blei ,Andrew Y.Ng

【2】LDA數學八卦,靳志輝

【3】Gibbs Sampling for the Uninitiated

發佈了108 篇原創文章 · 獲贊 166 · 訪問量 43萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章