PRML 閱讀筆記(四)

1.6 Information Theory


       這章的最後一節討論了“信息論”的知識,可能是要爲後面的內容打一點基礎吧。

       一上來,作者首先明確了在傳遞信息時,被傳遞的隨機變量的可能取值越多,則說明傳輸的信息量也就越大。如果一個事情必然發生,那麼信息傳輸不傳輸就都失去了意義,因爲即便不傳輸,我們也知道它只有唯一的取值。

       接下來,作者明確了熵的定義:

       

       x是要傳輸的隨機變量,p(x)是x可能取值的概率,而H則被稱爲“熵”。作者後面舉了幾個例子簡要說明了熵其實是傳遞一個隨機變量狀態所需的bit數的下界。而其實“熵”還有着比此更復雜的含義。接下來作者舉了一個物品裝箱的例子,例子的推導和含義都比較明白,不過沒明白作者想通過這個例子表述什麼。

       接下來,作者用拉格朗日乘數法求熵的最大值:

       

        結果得到:

          

          

            其中xi是隨機變量x可能取到的狀態,M是x狀態的總個數。接下來作者用一幅圖論證了,p(x)的分佈對於熵值的影響,一如熵取到最大值時一樣,p(x)分佈越均勻,則熵值就會越大。

            緊接着作者從定義上開始推導,將上例中箱子的大小趨於0,然後假設p(x)連續,推導出了x是連續隨機變量下熵的公式:

            

           同樣,作者通過拉格朗日乘數法推導出當x服從均值爲μ,方差爲δ的平方的正態分佈時,H的最大值爲1/2*(1+ln(2πδ))。並且還說明了一下條件熵的含義。


1.61 Relative entropy and mutual information


          q(x)是我們建立的用來近似表示分佈p(x)的模型,根據q(x)來傳輸隨機變量x的值,比用p(x)傳輸要多花費的額外成本記爲KL距離,即:

          

           爲了理解KL距離,首先要明白凸函數。作者通過凸函數的性質又引出了jensen不等式,進而對與連續型變量有:

           

            套用上面的公式,我們可以對KL距離進行一點推導:

            

             此處,利用了-lnx是凸函數的性質。現在,我們可以用KL距離來表示兩個分佈的差異性,當且僅當q(x)=p(x)時,KL距離爲0。用q(x|theta)來近似p(x),那麼如果想知道效果的好壞,就可以利用KL距離來判斷。但是上述公式顯然不能直接利用,因爲p(x)未知。假設有取自於p(x)的樣本,我們可以利用如下公式來優化q(x|theta),即改變theta的值:

             

              那麼最小化KL距離就等價於最大化似然函數ln(q(xn|theta))。

              衆所周知,當兩個隨機變量獨立時有p(x,y)=p(x)*p(y)。我們也可以用mutual Information來描述兩個隨機變量的關聯性:

               當且僅當x,y相互獨立時,I=0。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章