LDA基础知识系列 ----(1)共轭先验分布

  理解LDA,可以分为下述5个步骤:
一个函数:gamma函数
四个分布:二项分布、多项分布、beta分布、Dirichlet分布
一个概念和一个理念:共轭先验和贝叶斯框架
两个模型:pLSA、LDA
一个采样:Gibbs采样

  本节以简单明了的叙述方式,讲述先验概率、似然函数、后验概率、同分布,Beta-Binomial共轭等共轭先验分布内容,对必要的推导,讲述其注意事项,避免跳“坑”。

本节内容

共轭先验分布

  共轭,顾名思义,两个及以上的对象,互相牵制、控制。
  那在贝叶斯理论里呢,在已知似然函数情况下(已经有样本数据了),根据先验概率函数求后验概率,问题是:选取什么样的先验分布,会让后验分布与先验分布具有相同的数学形式呢,从这里提出了共轭分布理论。
(x为样本数据,P(x)就是归一化因子(联想全概率 P(x)=ni=1P(θi)P(x|θi) ,如果不关心P(θ|x)的具体值,只考察θ取何值时后验概率P(θ|x)最大,则可将分母省去。)

P(θ|x)=P(x|θ)P(θ)P(x)P(x|θ)P(θ)

  在贝叶斯概率理论中,如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律(同分布),那么,先验分布叫作似然函数的共轭先验分布,先验分布和后验分布被叫作共轭分布。

  共轭先验的好处主要在于代数上的方便性,可以直接给出后验分布的封闭形式,否则的话只能数值计算。共轭先验也有助于获得关于似然函数如何更新先验分布的直观印象

先验概率p(θ)

  先验概率(prior probability)通俗来讲是指根据以往经验和分析得到的概率分布。就比如询问某高校的男女比例,一个同学回答“3:2”,这个概率很可能就是该同学根据身边同学的性别比例,得到的一个经验概率。

似然函数

  统计学中,似然函数是一种关于统计模型参数的函数,表示模型参数中的似然性。
计算上:给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后数据X的概率:L(θ|x)=P(X=x|θ)。比如拿一枚不确定正反概率的硬币,三正两反的似然函数就是:C35p3(1p)2 (假设正面概率为P)。
  简单意思就是,把参数设出来,记为θ,那似然函数就是在参数θ下,样本事件所发生的概率表述。
  但是我们要注意在统计学中,似然和概率又不一样,概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。
  例如,对于“一枚正反对称的硬币上抛十次”这种事件,我们可以问硬币落地时十次都是正面向上的“概率”是多少;而对于“一枚硬币上抛十次”,我们则可以问,这枚硬币正反面对称的“似然”程度是多少。

后验概率P(θ|x)

  在贝叶斯统计中,一个随机事件或者一个不确定事件的后验概率是在给出相关证据或数据后所得到的条件概率。在使用贝叶斯定理时,我们通过将先验概率与似然函数相乘并归一化,来得到后验概率分布,也就是给出某数据,该不确定量的条件分布。来个例子,计算一下吧:

  假设一个学校里有60%男生和40%女生。女生穿裤子的人数和穿裙子的人数相等,所有男生穿裤子。一个人在远处随机看到了一个穿裤子的学生。那么这个学生是女生的概率是多少?
  使用贝叶斯定理,事件A是看到女生,事件B是看到一个穿裤子的学生。我们所要计算的是P(A|B),分析一下:
  P(A)是忽略其它因素,看到女生的先验概率,在这里是0.4;
  P(A’)是忽略其它因素,看到不是女生(即看到男生)的概率,在这里是0.6;
  P(B|A)是女生穿裤子的概率,在这里是0.5;
  P(B|A’)是男生穿裤子的概率,在这里是1;
  P(B)是忽略其它因素,学生穿裤子的概率,  P(B) = P(B|A)P(A) + P(B|A’)P(A’)(利用全概率公式),在这里是0.5×0.4 + 1×0.6 = 0.8。
  根据贝叶斯定理,我们计算出后验概率P(A|B):

P(A|B)=P(AB)P(B)=P(B|A)P(A)P(B)

  从这里也可以看出来后验概率其实也是条件概率。

(为保证公式的显示规范,方便及时讨论建议至原网页(云南省高校数据化运营管理工程研究中心的博客)查看http://write.blog.csdn.net/mdeditor#!postId=78935021

先验概率与后验概率的区别

  先验概率不是根据有关自然状态的全部资料测定的,而只是利用现有的材料(主要是历史资料)计算的;后验概率使用了有关自然状态更加全面的资料,既有先验概率资料,也有补充资料;
  先验概率的计算比较简单,没有使用贝叶斯公式;而后验概率的计算,要使用贝叶斯公式,而且在利用样本资料计算逻辑概率时,还要使用理论概率分布,需要更多的数理统计知识。

例子整理参考百度百科

同样的分布律如何理解?

  后验概率P(θ|x)和先验概率p(θ)满足 同样的分布律(同分布),那么,先验分布和后验分布被叫做共轭分布,在这里的同分布,是指有相同的概率分布形式,比如两枚不均匀硬币,参数P数值不一样,但都服从二项分布,两个分布同分布。

本小节内容:Beta-Binomial共轭

Beta-Binomial共轭
  在之前的内容中已经解决了:Beta分布的怎么来?Beta分布和Gamma函数的关系,以及Beta分布的期望,那谁的分布是Beta分布呢?
  从Bata分布怎么来中,我们了解了二项分布和Beta分布的关系,它们还有那些更紧密的关系呢?
在这里我们直接引入我们要证明的结论:

二项分布/伯努利分布的共轭先验分布是Beta分布。

证明:
  1:二项分布。n为样本个数,k为概率θ 对应事件所发生的次数,二项分布的似然函数:P(x | θ)=Cknθk(1θ)nk
  2.先验分布(Beta分布)。θ 先验分布假设为Beta分布,超参数为α,β

P(θ)=P(θ|α,β)=1B(α,β)θα1(1θ)β1)

注意,P(θ|α,β) 不是条件概率,表示的为P(θ) 超参数是α,β
  3.计算后验分布:
P(θ | x)=P(xθ)P(θ)P(x) ~P(x | θ)P(θ | α,β)=Cknθk(1θ)nk)(1B(α,β)θα1(1θ)β1)=CknB(α,β)θ(k+α)1(1θ)(nk+β)1) ~1B(k+α,nk+β)θ(k+α)1(1θ)(nk+β)1

  计算解析: 在给定α,β 的情况下,B(α,β) 是一个常数,观察第三个等号后面的式子,对比Bata分布的概率密度函数:
f(θ)=1B(α,β)θα1(1θ)β1)

  观察系数会发现 ,可根据第三行参数对应的系数进行配凑Bata分布形式,同时在给定α,β的情况下,B(α,β)是一个常数,所以就可配凑成系数所对应的B(k+α,n-k+β)。所以就得到正比于第四个式子,后验分布也是Beta分布。
  经过简单合并同类项、配凑就证明了后验分布和先验分布同分布。所以,Beta分布(对应先验分布)是二项分布(对应似然函数)的共轭先验分布。

  下一节,LDA基础知识系列 —-共轭先验分布(2)将从Beta分布出发,水到渠成的讲述Dirichlet 分布和Dirichlet-Multionmial共轭。

发布了53 篇原创文章 · 获赞 124 · 访问量 23万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章