LDA前言知识

在 2003 年（准确地说应该是 2002 年）D. M. Blei1 提出的 LDA（Latent Dirichlet Allocation2）模型（翻译成中文就是——潜在狄利克雷分配模型），让主题模型火了起来。
LDA根据给定的一篇文档，推测其主题分布。通俗来说，人类根据文档生成过程写成了各种各样的文章，现在人们想让计算机利用LDA干一件事：计算机分析推测网络上各篇文章，分别都写了些啥主题，且各篇文章中各个主题出现的概率大小（主题分布）是啥。
LDA 主题模型涉及到贝叶斯理论、Dirichlet 分布、多项分布、图模型、变分推断、EM 算法、Gibbs 抽样等知识。LSI、PLSI等也为主题模型，LDA 是此基础上的一个突破，它之后也有很多对它进行改进的主题模型。本文主要讲解LDA的基础知识，即一个函数、四个分布。

一个函数

Gamma分布作为先验分布很强大，在贝叶斯统计分析中被广泛的应作其它分布的先验。下面我们来看一下Gamma函数。

Gamma函数式：

f (x) = \int + \infty 0 t x e - t d t

性质：

Γ (x + 1) = x Γ (x)

Γ (n) = (n - 1)!

由上我们认识了Gamma函数、知道了其性质。下面我们来看四个分布。

四个分布

二项分布

二项分布是从伯努利分布推进的。伯努利分布，又称两点分布或0-1分布，是一个离散型的随机分布，其中的随机变量只有两类取值，非正即负{+，-}。
二项分布即重复n次的伯努利试验，记为x∼ b（n,p）。简言之，只做一次实验，是伯努利分布，重复做了n次，是二项分布。

二项分布的概率密度函数为：
P（K=k）=(nk)pk(1−p)n−k

多项分布

多项分布，是二项分布扩展到多维的情况。多项分布是指单次试验中的随机变量的取值不再是0-1的，而是有多种离散值可能（1,2,3…,k）。
比如投掷6个面的骰子实验，N次实验结果服从K=6的多项分布,其中∑ki=1pi=1 。
多项分布的概率密度函数为：
P(x1,x2,...,xk,n,p1,p2,...,pk)=n!x1!x2!...xk!px11px22...pxkk

beta分布

二项分布的共轭先验分布，在概率论中，beta是指一组定义在（0,1）区间的连续概率分布，有两个参数α 和β ，且 α,beta>0 （α 和β 共同控制Beta分布的函数”长的样子”：形状千奇百怪，高低胖瘦）。

随机变量X服从参数为的beta分布通常写：x∼ Be(α,β)
beta分布的概率密度函数是：

f (x; α, β) = x α - 1 ( 1 - x ) β - 1 \int 1 0 u α - 1 ( 1 - u ) β - 1 d u

= Γ ( α + β ) Γ ( α ) + Γ ( β ) x α - 1 (1 - x) β - 1

= 1 B ( α , β ) x α - 1 (1 - x) β - 1

其中,B(α,β)=Γ(α+β)Γ(α)+Γ(β) ,Γ(z)=∫+∞0tze−tdt 。

Dirichlet分布

Dirichlet分布是beta分布在高维度上的推广。其密度函数形式跟beta分布的密度函数如出一：P(x1,x2,...,xk,n,a1,a2,...,ak)=1B(α)∏ki=1xαi−1i
其中，B(α)=∏ki=1Γ(αi)Γ(∏ki=1αi) ,∑xi=1 。
至此，我们可以看到二项分布和多项分布很相似，Beta分布和Dirichlet 分布很相似，Beta分布是二项式分布的共轭先验概率分布，而狄利克雷分布（Dirichlet分布）是多项式分布的共轭先验概率分布。
本篇文章学习了LDA的前言知识，后面将一一讲解两个共轭：Bata共轭、Drichlet共轭，两个抽样：MCMC、Gibbs抽样，LDA主题模型。

云南省高校数据化运营管理工程研究中心

发布了53 篇原创文章 · 获赞 124 · 访问量 23万+

私信关注

一个函数

Gamma函数式：

四个分布

二项分布

多项分布

beta分布

Dirichlet分布

MCMC抽樣與LDA參數求解

在jupeyter_notebook中編寫內容教程

windows10 安裝mysql 以及遇到的各種問題解決方案

美團點評2018春招自然語言處理方向

神經網絡實現連續型變量的迴歸預測（python)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結