在 2003 年(准确地说应该是 2002 年)D. M. Blei1 提出的 LDA(Latent Dirichlet Allocation2)模型(翻译成中文就是——潜在狄利克雷分配模型),让主题模型火了起来。
LDA根据给定的一篇文档,推测其主题分布。通俗来说,人类根据文档生成过程写成了各种各样的文章,现在人们想让计算机利用LDA干一件事:计算机分析推测网络上各篇文章,分别都写了些啥主题,且各篇文章中各个主题出现的概率大小(主题分布)是啥。
LDA 主题模型涉及到贝叶斯理论、Dirichlet 分布、多项分布、图模型、变分推断、EM 算法、Gibbs 抽样等知识。LSI、PLSI等也为主题模型,LDA 是此基础上的一个突破,它之后也有很多对它进行改进的主题模型。本文主要讲解LDA的基础知识,即一个函数、四个分布。
一个函数
Gamma分布作为先验分布很强大,在贝叶斯统计分析中被广泛的应作其它分布的先验。下面我们来看一下Gamma函数。
Gamma函数式:
性质:
由上我们认识了Gamma函数、知道了其性质。下面我们来看四个分布。
四个分布
二项分布
二项分布是从伯努利分布推进的。伯努利分布,又称两点分布或0-1分布,是一个离散型的随机分布,其中的随机变量只有两类取值,非正即负{+,-}。
二项分布即重复n次的伯努利试验,记为
二项分布的概率密度函数为:
多项分布
多项分布,是二项分布扩展到多维的情况。多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能(1,2,3…,k)。
比如投掷6个面的骰子实验,N次实验结果服从K=6的多项分布,其中
多项分布的概率密度函数为:
beta分布
二项分布的共轭先验分布,在概率论中,beta是指一组定义在(0,1)区间的连续概率分布,有两个参数
随机变量X服从参数为的beta分布通常写:
beta分布的概率密度函数是:
其中,
Dirichlet分布
Dirichlet分布是beta分布在高维度上的推广。其密度函数形式跟beta分布的密度函数如出一:
其中,
至此,我们可以看到二项分布和多项分布很相似,Beta分布和Dirichlet 分布很相似,Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布 。
本篇文章学习了LDA的前言知识,后面将一一讲解两个共轭:Bata共轭、Drichlet共轭,两个抽样:MCMC、Gibbs抽样,LDA主题模型。