LDA前言知识

  在 2003 年(准确地说应该是 2002 年)D. M. Blei1 提出的 LDA(Latent Dirichlet Allocation2)模型(翻译成中文就是——潜在狄利克雷分配模型),让主题模型火了起来。
  LDA根据给定的一篇文档,推测其主题分布。通俗来说,人类根据文档生成过程写成了各种各样的文章,现在人们想让计算机利用LDA干一件事:计算机分析推测网络上各篇文章,分别都写了些啥主题,且各篇文章中各个主题出现的概率大小(主题分布)是啥。
  LDA 主题模型涉及到贝叶斯理论、Dirichlet 分布、多项分布、图模型、变分推断、EM 算法、Gibbs 抽样等知识。LSI、PLSI等也为主题模型,LDA 是此基础上的一个突破,它之后也有很多对它进行改进的主题模型。本文主要讲解LDA的基础知识,即一个函数、四个分布。

一个函数

  Gamma分布作为先验分布很强大,在贝叶斯统计分析中被广泛的应作其它分布的先验。下面我们来看一下Gamma函数。

Gamma函数式:

f(x)=+0txetdt

性质:
Γ(x+1)=xΓ(x)
Γ(n)=(n1)!

由上我们认识了Gamma函数、知道了其性质。下面我们来看四个分布。

四个分布

二项分布

  二项分布是从伯努利分布推进的。伯努利分布,又称两点分布或0-1分布,是一个离散型的随机分布,其中的随机变量只有两类取值,非正即负{+,-}。
  二项分布即重复n次的伯努利试验,记为x bn,p 。简言之,只做一次实验,是伯努利分布,重复做了n次,是二项分布。

二项分布的概率密度函数为:
PK=k=(nk)pk(1p)nk

多项分布

  多项分布,是二项分布扩展到多维的情况。多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能(1,2,3…,k)。
  比如投掷6个面的骰子实验,N次实验结果服从K=6的多项分布,其中ki=1pi=1
多项分布的概率密度函数为:
P(x1,x2,...,xk,n,p1,p2,...,pk)=n!x1!x2!...xk!px11px22...pxkk

beta分布

  二项分布的共轭先验分布,在概率论中,beta是指一组定义在(0,1)区间的连续概率分布,有两个参数αβ ,且 α,beta>0αβ 共同控制Beta分布的函数”长的样子”:形状千奇百怪,高低胖瘦)。这里写图片描述

  随机变量X服从参数为的beta分布通常写:x Be(α,β)
  beta分布的概率密度函数是:

f(x;α,β)=xα1(1x)β110uα1(1u)β1du

=Γ(α+β)Γ(α)+Γ(β)xα1(1x)β1

=1B(α,β)xα1(1x)β1

其中,B(α,β)=Γ(α+β)Γ(α)+Γ(β) ,Γ(z)=+0tzetdt

Dirichlet分布

  Dirichlet分布是beta分布在高维度上的推广。其密度函数形式跟beta分布的密度函数如出一:P(x1,x2,...,xk,n,a1,a2,...,ak)=1B(α)ki=1xαi1i
其中,B(α)=ki=1Γ(αi)Γ(ki=1αi) ,xi=1
  至此,我们可以看到二项分布和多项分布很相似,Beta分布和Dirichlet 分布很相似,Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布 。
本篇文章学习了LDA的前言知识,后面将一一讲解两个共轭:Bata共轭、Drichlet共轭,两个抽样:MCMC、Gibbs抽样,LDA主题模型。

发布了53 篇原创文章 · 获赞 124 · 访问量 23万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章