PRML 阅读笔记(五)

2 Probability Distribution

    概率分布在模式识别问题中扮演了很重要的角色,而我们常说的分布都属于参数分布的范畴,因为这些分布都由一些列可调整的参数来控制,如正态分布里的均值与方差。从频率学派的角度看,要通过一些优化准则来对参数的值进行改变,例如似然函数。而在贝叶斯的观点看来,先对参数的先验分布进行预估,然后通过给定的样本数据用贝叶斯理论来计算后验分布。

     关于共轭先验:书上说共轭先验的概念还是很重要的,大意是指后验分布与先验分布有相同的函数形式,即先验分布和后验分布属于同一族。在得到后验分布后便可以将后验分布当作接下来的先验分布进行迭代。


2.1 Binary Variables

     这一章主要介绍了伯努利分布和二项分布,这个应该是概率统计里的基础知识,这里就不赘述了。其中提到sufficient statistic,即充分统计量。统计量所包含的信息通常少于样本,因为统计量其实只是从一个或几个角度观察样本。充分统计量,即对于我们的统计模型,是指除了充分统计量外没有任何其它来自相同样本的统计量可以提供更多关于模型的未知参数的信息。 大意是指知道充分统计量的时候,统计模型的分布也就确定了。


2.1.1 The beta distribution

     作者又提到了抛一枚硬币,三次正面朝上的例子来说明最大似然函数的过拟合问题,为了解决这个问题作者又引出了Bayes的观点,想针对二项分布的参数μ提出一个先验分布,这里,作者选择了beta分布。

     

      beta分布的均值和方差如下:

       

         其中a,b即所谓的hyperparameters,因为他们控制了分布的参数μ。此时通过将beta先验分布和二项似然函数想乘,留下那些与μ有关的部分,我们得到:

         

         后验分布的形式与先验分布是相同的,即我们所说的共轭分布。而其实后验分布也是一个beta分布(应该是经过一些列对于gamma函数的整合和计算得到的

         

          接下来,作者说明了其实beta分布中的a,b可以称为x的有效观察量。而先验分布和后验分布的差别仅是当加入新的观察量时a会变为a+m,b会变为b+l,那么可以把a+m和b+l看作新的a,b,从而就可以把后验分布当作先验分布,每加入一个或一小批新的观察量,做一次更新,这样的方法可以用于实时的学习场景下。作者在书中提到:

           

          “这样,问题独立于对于先验概率的选择和似然函数,只依赖于独立同分布的假设”。那么我们如何选择a,b的初值呢,假设我们在没有任何样本的前提下,另外,书中提到a,b可以不是整数,有什么意义?选择初值的时候更灵活?

         我们的目标要对输入变量进行预测。所以作者推导出了结果,即:

         

          有点像laplace平滑,我们通过a,b来避免了过拟合,当抛硬币仍然出现连续三次正面的时候,在之后进行预测的时候我们可以给定一个相对合理一点的值了。

          对于之后的内容,通过样本的增加,可以减小后验概率所变现的不确定性的部分,看的不是很明白。

2.2 Multinomial Variables

          各种阶乘,向量真的是看的眼花缭乱,不过基本的内容还是粗浅懂了。

          对于二项分布,随机变量只有两个可能取值,而多项式分布中,随机变量会有多个可能取值,表示为:

         

          接下来的公式不一一说明了,浪费时间,也没有什么更多的理解,搞明白多项式分布的含义,即有N个独立随机变量,每个随机变量有K个取值。而Dirichlet分布是多项式分布的共轭先验。其实,多项式分布是二项分布在X的可能取值上的扩展,所以基本内容同二项分布类似。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章