LDA家族故事

LDA家族故事

作者:Pattaya

LSI和NMF是基於矩陣分解的主題模型。
LFM (隱語義模型)也是矩陣分解模型。
LDA是一個三層貝葉斯網絡概率模型,包含詞,主題,文檔三層結構。
LDA 就是 PLSA 的貝葉斯化版本。
LDA是pLSA的generalization:一方面LDA的hyperparameter設爲特定值的時候,就specialize成pLSA了。
NMF:一種矩陣分解,要求輸入矩陣元素非負,目標和 SVD 一樣。
pLSA:SVD 的一種概率解釋方法——要求矩陣元素是非負整數。
LDA:pLSA 加上 topics 的 Dirichlet 先驗分佈後得到的 Bayesian model,數學上更漂亮。爲什麼是 Dirichlet 先驗分佈,主要是利用了 Dirichlet 和 multinomial 分佈的共軛性,方便計算。

主題模型:

隱含狄利克雷分佈(Latent Dirichlet Allocation,以下簡稱LDA)。注意機器學習還有一個LDA,即線性判別分析,主要是用於降維和分類的。
LDA的目標是找到每一篇文檔的主題分佈和每一個主題中詞的分佈。

區分

在機器學習領域,LDA是兩個常用模型的簡稱:Linear Discriminant Analysis 和 Latent Dirichlet Allocation。本文的LDA僅指代Latent Dirichlet Allocation. LDA 在主題模型中佔有非常重要的地位,常用來文本分類。

LDA由Blei, David M.、Ng, Andrew Y.、Jordan於2003年提出,用來推測文檔的主題分佈。它可以將文檔集中每篇文檔的主題以概率分佈的形式給出,從而通過分析一些文檔抽取出它們的主題分佈後,便可以根據主題分佈進行主題聚類或文本分類。

懂 LDA 的面試官通常會詢問求職者,LDA 中主題數目如何確定?
在 LDA 中,主題的數目沒有一個固定的最優解。模型訓練時,需要事先設置主題數,訓練人員需要根據訓練出來的結果,手動調參,優化主題數目,進而優化文本分類結果。
LDA 在提出後,之後產生了很多基於 LDA 的改進模型,基本都是概率圖模型加 LDA 的組合方式。但 LDA 也有缺點,LDA對短文本的效果不好,而且計算量比較大,訓練時間比較長。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章