LDA家族故事

作者：Pattaya

LSI和NMF是基于矩阵分解的主题模型。
LFM （隐语义模型）也是矩阵分解模型。
LDA是一个三层贝叶斯网络概率模型，包含词，主题，文档三层结构。
LDA 就是 PLSA 的贝叶斯化版本。
LDA是pLSA的generalization：一方面LDA的hyperparameter设为特定值的时候，就specialize成pLSA了。
NMF：一种矩阵分解，要求输入矩阵元素非负，目标和 SVD 一样。
pLSA：SVD 的一种概率解释方法——要求矩阵元素是非负整数。
LDA：pLSA 加上 topics 的 Dirichlet 先验分布后得到的 Bayesian model，数学上更漂亮。为什么是 Dirichlet 先验分布，主要是利用了 Dirichlet 和 multinomial 分布的共轭性，方便计算。

主题模型：

隐含狄利克雷分布(Latent Dirichlet Allocation，以下简称LDA)。注意机器学习还有一个LDA，即线性判别分析，主要是用于降维和分类的。
LDA的目标是找到每一篇文档的主题分布和每一个主题中词的分布。

区分

在机器学习领域，LDA是两个常用模型的简称：Linear Discriminant Analysis 和 Latent Dirichlet Allocation。本文的LDA仅指代Latent Dirichlet Allocation. LDA 在主题模型中占有非常重要的地位，常用来文本分类。

LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出，用来推测文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题分布后，便可以根据主题分布进行主题聚类或文本分类。

懂 LDA 的面试官通常会询问求职者，LDA 中主题数目如何确定？
在 LDA 中，主题的数目没有一个固定的最优解。模型训练时，需要事先设置主题数，训练人员需要根据训练出来的结果，手动调参，优化主题数目，进而优化文本分类结果。
LDA 在提出后，之后产生了很多基于 LDA 的改进模型，基本都是概率图模型加 LDA 的组合方式。但 LDA 也有缺点，LDA对短文本的效果不好，而且计算量比较大，训练时间比较长。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

LDA家族故事

LDA家族故事

主题模型：

区分

linux安装cuda和cudnn

模拟手机设备：使用 Playwright 实现移动端自动化测试

Mellanox网卡开启SR-IOV

测试人员都是画画大神，让我看看谁还不会用代码图？

Object.values()对象遍历

我拍了拍Redis，被移出了群聊···

网络现代化通向云原生应用的高速公路

面试官：说说你对序列化的理解

我宣布，这是我找到的史上AI最全论文体系！

spark讀取elasticsearch nested array

使用python 進行oracle 全庫數據描述性及探索性逆向分析

使用python fake module批量製造測試數據

elasticsearch 6.3.0 快照

動態添加tab選項卡及tab頁面內容（ajax請求json數據）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結