PRML 阅读笔记(八)

2.4 The Exponential Family

       到目前为止,书中讲过的除了高斯混合分布以外的大部分概率分布都是属于一类更广义的分布--Exponential Family。这一节就是阐述这类分布的一些共同性质。

       给定参数η,如果x的分布符合如下形式,则称x服从指数族分布:

       

        η在此称为natural parameter。g(η)是为了确保概率密度的归一化。接着作者又证明了伯努利分布,二项分布,高斯分布都可以推导为上述形式,即它们都是指数族分布的一员。


2.4.1 Maximum likelihood and sufficient statistics

        既然提出了一种更为广义的分布,那么在利用它进行建模的时候,自然而然的就要想到一个重要的问题,即如何来估计参数η。

       从理论上进行推导,通过书上(2.195)的式子两边求关于η的梯度,再经过一些简单推导可以得到:

       

        书中写到,从推导过程我们也可以看出来,如果对η球二阶导数,则在积分号内部会出现u(x)*u(x),即最后可以得到E(u²(x)),这样,u(x)的方差便可以用η表示了。表示u(x)的方差有什么用呢?

         接下来,在实际建模过程中,我们假设所有的样本服从指数族分布,且是独立同分布的。我们利用使似然函数的log形式的梯度为0,进而得到了η的最大似然估计:

         

          注意当N趋于无穷大的时候,等式右边便是u(x)的期望。

          所以作者开始先是从理论上对η的值进行推导是为了证明最大似然估计是有理有据的么?


2.4.2 Conjugate priors

          书中之前已经出现过共轭先验的概念,就是我们要观察似然函数的形式,然后找到一个先验函数,确保先验函数和似然函数的乘积即后验函数的形式是与先验函数相同的,其意义在之前的2.1或2.2节简单阐述过了。

           所以通过观察指数族分布,我们得到了指数族分布的共轭先验的形式:

           

            书上这一小节的最后一句话我没看懂,希望大家能帮着解释一下,谢谢。

            

 

2.4.3 Noninformative priors


       有的时候,也许是因为经验或知识不足等等原因,我们不想让先验分布对后验分布产生太大的影响,这时选取先验分布就需要一些技巧了。

       假设有分布p(x|λ),想使先验分布对后验无太大影响,在选取先验时,当λ取值连续,可以使p(λ)=const,当λ取值离散的时候,可以使λ的每种取值的概率均等。(所以这种无影响还是相对的,假设在λ的取值离散,使其每种取值概率相同时,还是会对后验分布产生影响,因为从样本得到的结论仍然有可能与先验假设差别很大?)

       作者下面讲到在λ取值连续时,取p(λ)=const可能面临的两种问题。首先,如果λ的取值是无限的话,先验分布的积分不会是1,因为它的积分是发散的。则此先验分布称为improper,但往往这样improper的先验分布所对应的后验分布是proper的。作者举了一个高斯分布期望的例子,我没看懂,希望大家可以讲解一下,谢谢。

        其次,在对变量做非线性替换的时候,可能会因为Jacobian因子的问题使得先验分布不再是一个常数。

        之后,作者又举了两个Noninformative priors的例子,并在后面分别辅以高斯分布期望和方差的例子来说明,这里就不具体叙述了。

        我的疑问是,既然不想让先验对后验产生影响,为什么不直接用似然函数来估计参数的值,还非要搞一个Noninformative priors呢?


2.5 Nonparametric Methods

       这一章前面的章节所介绍的方法都有一个共同特点,就是用一个具体的模型对样本的分布建模,而模型的参数则取决于样本,称之为parametric。当选择的模型无法很好拟合样本的时候,就会得到很差的预测结果。最后一节要介绍另外一种不同的方法,Nonparametric。

       作者首先介绍了histogram methods,以一维模型为例,把座标横轴划成一个个小间隔Δi,通常的Δi都是相等的,然后根据样本落在Δi内的点的个数,对样本进行拟合。落在Δi内的点的概率密度是:

        

         这里并没有主观的选择任何模型去拟合样本,只是通过划分Δ,让样本自然的落到Δi内,形成概率密度。可是其中还是Δ的大小还是人为控制的,如书中图2.24所示,Δ过大,存在着欠拟合,Δ太小,也会有过拟合的问题。当然,histogram methods还有另外两个问题,第一,在Δi的边界,密度函数是不连续的。第二,如果每个样本是D维的,而每一个维度上我们又划分了M个Δ,则Δ的总数会是M的D次方。

          下面作者介绍了两种比histogram methods效果更好的Nonparametric方法。


2.5.1 Kernel density estimators

         假设样本取自未知的分布p(x)。那么某点落在很小的R区域中的概率为:

         

          根据二项分布,假设取自p(x)的样本个数为N,那么其中有K个点落在区域R中的概率为:

          

           而当样本足够大的时候,我们可以认为K的近似于N*P;下面我们假设R足够小,这就使得落在R内的概率近似的表示为一个常数值p(x),则有P=p(x)*V,关于V的解释,如果在平面座标中,V就是R在横轴上的宽度,再乘p(x),即是这以概率密度所围成的面积,亦即R的概率。结合这两个式子,就得到了关于p(x)的估计:

           

            书上明确的说,我们在推导p(x)的估计的过程中,用了两个相悖的假设。首先假设了R足够小,以致在R内的概率密度可以近似看作是一个常数,另一个是K足够大会使二项分布to be sharply peaked,是什么意思?

             所以,问题就出在了上式中的V和K上。所以解决方法是,如果固定V的大小来决定K,称为kernel density estimators。如果固定K的大小来决定V,称为K-nearest-neighbor方法。下面具体介绍kernel estimators。

            书中是先是定义了一个kernel函数,这个kernel函数的含义应该是如果当样本点和我们要计算概率密度的点小于等于规定阈值的时候,就判断这个点在我们的V中,如果大于阈值,则不在V中,通过所有在V中的点的个数和所有样本点个数的比值来判断要计算的点的概率密度,即:

             

              这里的h应该是与前面histogram中的Δ相似的,但是h在这里的具体含义是什么呢?不太明白,希望大家帮忙,谢谢。

              同样的,像histogram中一样,我们还是把整个空间划分了,所以在各个区域的边界上还是存在不连续的问题,所以如果选择一个平滑一些的kernel函数,Gaussian是通常的选择:

              

                这样就得到了kernel estimators下x点的概率密度。书中最后讲到,这样的算法不存在训练的过程,预测的过程是将所有样本存储,在要对某个点进行预测的时候实时计算这一点的概率密度就可以了,因为x的取值是连续的,这样的方法永远也不可能把所有x的可能取值的概率密度都计算出来再去预测。


2.5.2 Nearest neighbor methods

           现在我们固定前面提到的K,来决定V的值,即允许V的增大直到达到规定的K值。K Nearest neighbor methods通常应用于分类问题,假设现在有Nk个点属于分类Ck,所有点的个数的总和为N。如果我们要对某个点x进行分类,就以这个点为中心划出一个球体,直到这个球体中包含了规定的K个点,假设球体的体积是V,K个点中有Kk个点来自Ck。有了这些量,再根据Bayes公式,就可以推导出x属于分类Ck的概率:

           

            K Nearest neighbor methods也需要将整个样本集存储来实时计算某一点属于某一个分类的概率,虽然可以通过建立一些基于树的查找结构来一次性解决这个问题,但用书中的话,总的来说这样的方法应用起来还是很局限的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章