LDA家族故事

作者：Pattaya

LSI和NMF是基於矩陣分解的主題模型。
LFM （隱語義模型）也是矩陣分解模型。
LDA是一個三層貝葉斯網絡概率模型，包含詞，主題，文檔三層結構。
LDA 就是 PLSA 的貝葉斯化版本。
LDA是pLSA的generalization：一方面LDA的hyperparameter設爲特定值的時候，就specialize成pLSA了。
NMF：一種矩陣分解，要求輸入矩陣元素非負，目標和 SVD 一樣。
pLSA：SVD 的一種概率解釋方法——要求矩陣元素是非負整數。
LDA：pLSA 加上 topics 的 Dirichlet 先驗分佈後得到的 Bayesian model，數學上更漂亮。爲什麼是 Dirichlet 先驗分佈，主要是利用了 Dirichlet 和 multinomial 分佈的共軛性，方便計算。

主題模型：

隱含狄利克雷分佈(Latent Dirichlet Allocation，以下簡稱LDA)。注意機器學習還有一個LDA，即線性判別分析，主要是用於降維和分類的。
LDA的目標是找到每一篇文檔的主題分佈和每一個主題中詞的分佈。

區分

在機器學習領域，LDA是兩個常用模型的簡稱：Linear Discriminant Analysis 和 Latent Dirichlet Allocation。本文的LDA僅指代Latent Dirichlet Allocation. LDA 在主題模型中佔有非常重要的地位，常用來文本分類。

LDA由Blei, David M.、Ng, Andrew Y.、Jordan於2003年提出，用來推測文檔的主題分佈。它可以將文檔集中每篇文檔的主題以概率分佈的形式給出，從而通過分析一些文檔抽取出它們的主題分佈後，便可以根據主題分佈進行主題聚類或文本分類。

懂 LDA 的面試官通常會詢問求職者，LDA 中主題數目如何確定？
在 LDA 中，主題的數目沒有一個固定的最優解。模型訓練時，需要事先設置主題數，訓練人員需要根據訓練出來的結果，手動調參，優化主題數目，進而優化文本分類結果。
LDA 在提出後，之後產生了很多基於 LDA 的改進模型，基本都是概率圖模型加 LDA 的組合方式。但 LDA 也有缺點，LDA對短文本的效果不好，而且計算量比較大，訓練時間比較長。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

LDA家族故事

LDA家族故事

主題模型：

區分

spark讀取elasticsearch nested array

使用python 進行oracle 全庫數據描述性及探索性逆向分析

使用python fake module批量製造測試數據

elasticsearch 6.3.0 快照

動態添加tab選項卡及tab頁面內容（ajax請求json數據）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結