LDA家族故事

LDA家族故事

作者:Pattaya

LSI和NMF是基于矩阵分解的主题模型。
LFM (隐语义模型)也是矩阵分解模型。
LDA是一个三层贝叶斯网络概率模型,包含词,主题,文档三层结构。
LDA 就是 PLSA 的贝叶斯化版本。
LDA是pLSA的generalization:一方面LDA的hyperparameter设为特定值的时候,就specialize成pLSA了。
NMF:一种矩阵分解,要求输入矩阵元素非负,目标和 SVD 一样。
pLSA:SVD 的一种概率解释方法——要求矩阵元素是非负整数。
LDA:pLSA 加上 topics 的 Dirichlet 先验分布后得到的 Bayesian model,数学上更漂亮。为什么是 Dirichlet 先验分布,主要是利用了 Dirichlet 和 multinomial 分布的共轭性,方便计算。

主题模型:

隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称LDA)。注意机器学习还有一个LDA,即线性判别分析,主要是用于降维和分类的。
LDA的目标是找到每一篇文档的主题分布和每一个主题中词的分布。

区分

在机器学习领域,LDA是两个常用模型的简称:Linear Discriminant Analysis 和 Latent Dirichlet Allocation。本文的LDA仅指代Latent Dirichlet Allocation. LDA 在主题模型中占有非常重要的地位,常用来文本分类。

LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用来推测文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。

懂 LDA 的面试官通常会询问求职者,LDA 中主题数目如何确定?
在 LDA 中,主题的数目没有一个固定的最优解。模型训练时,需要事先设置主题数,训练人员需要根据训练出来的结果,手动调参,优化主题数目,进而优化文本分类结果。
LDA 在提出后,之后产生了很多基于 LDA 的改进模型,基本都是概率图模型加 LDA 的组合方式。但 LDA 也有缺点,LDA对短文本的效果不好,而且计算量比较大,训练时间比较长。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章