PRML 阅读笔记(四)

1.6 Information Theory


       这章的最后一节讨论了“信息论”的知识,可能是要为后面的内容打一点基础吧。

       一上来,作者首先明确了在传递信息时,被传递的随机变量的可能取值越多,则说明传输的信息量也就越大。如果一个事情必然发生,那么信息传输不传输就都失去了意义,因为即便不传输,我们也知道它只有唯一的取值。

       接下来,作者明确了熵的定义:

       

       x是要传输的随机变量,p(x)是x可能取值的概率,而H则被称为“熵”。作者后面举了几个例子简要说明了熵其实是传递一个随机变量状态所需的bit数的下界。而其实“熵”还有着比此更复杂的含义。接下来作者举了一个物品装箱的例子,例子的推导和含义都比较明白,不过没明白作者想通过这个例子表述什么。

       接下来,作者用拉格朗日乘数法求熵的最大值:

       

        结果得到:

          

          

            其中xi是随机变量x可能取到的状态,M是x状态的总个数。接下来作者用一幅图论证了,p(x)的分布对于熵值的影响,一如熵取到最大值时一样,p(x)分布越均匀,则熵值就会越大。

            紧接着作者从定义上开始推导,将上例中箱子的大小趋于0,然后假设p(x)连续,推导出了x是连续随机变量下熵的公式:

            

           同样,作者通过拉格朗日乘数法推导出当x服从均值为μ,方差为δ的平方的正态分布时,H的最大值为1/2*(1+ln(2πδ))。并且还说明了一下条件熵的含义。


1.61 Relative entropy and mutual information


          q(x)是我们建立的用来近似表示分布p(x)的模型,根据q(x)来传输随机变量x的值,比用p(x)传输要多花费的额外成本记为KL距离,即:

          

           为了理解KL距离,首先要明白凸函数。作者通过凸函数的性质又引出了jensen不等式,进而对与连续型变量有:

           

            套用上面的公式,我们可以对KL距离进行一点推导:

            

             此处,利用了-lnx是凸函数的性质。现在,我们可以用KL距离来表示两个分布的差异性,当且仅当q(x)=p(x)时,KL距离为0。用q(x|theta)来近似p(x),那么如果想知道效果的好坏,就可以利用KL距离来判断。但是上述公式显然不能直接利用,因为p(x)未知。假设有取自于p(x)的样本,我们可以利用如下公式来优化q(x|theta),即改变theta的值:

             

              那么最小化KL距离就等价于最大化似然函数ln(q(xn|theta))。

              众所周知,当两个随机变量独立时有p(x,y)=p(x)*p(y)。我们也可以用mutual Information来描述两个随机变量的关联性:

               当且仅当x,y相互独立时,I=0。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章