信息增益(互信息)非負性證明

        信息增益又稱互信息,它是信息論的基本概念之一。同時,它在當今流行的人工智能領域也多有涉及。其中,著名的決策樹算法IC3就是以信息增益作爲貪心選擇的依據。

        信息增益的定義如下:

                                     


                                                           


                                                  

        從上面的等式,可以看出信息增益具有對稱性。其中X和Y分別爲兩個信息量。信息增益表示這兩個信息量相關程度的測度。通俗點解釋就是,在知道Y這個信息量之後信息量X的不確定性相比於不知道信息量Y時,X的不確定性減少了多少(對於上述第一行的式子)。

       接下來,我們來根據信息增益的含義進一步分析。一般而言,在知道信息量Y後,信息量X會更加確定,說明信息量X和信息量Y是有一定的相關性的。比如,一覺醒來看到外面地面溼溼的(知道Y),那麼昨晚上下雨(X)的可能性就大大提高了。相對的,假如X和Y是無關的,那麼知道Y就不能夠對X的確定性有任何影響。另外,我們都應該知道一個事實,人們對已有的事實瞭解得越多,那麼人們就應該對未知的事物把握程度越大。通過上述分析,從直覺上應該可以得出兩條結論:

       1、滿足非負性,即它永遠不小於0;

       2、當事件X和Y相互獨立時,等於0。

       通過分析,我們得出的這兩個結論似乎很簡單而且符合常識。然而,對於這樣明顯的“常識”,假如你想回到上述定義式子證明這兩個結論(尤其是非負性),你會發現這是極其困難的一件事。最初,我是在去年學IC3決策樹算法時候遇到了這個問題。當時在理解了信息增益的物理意義之後,很快就得出了上述兩條結論。然而,我並沒有進一步深究上述結論的得出過程。而再一次遇到這個問題是今年六月份的一份智能技術複習題目(原題:請證明信息增益大於或等於0。)上,當時考慮了很久,都沒有解出這一題,很快我就發現了這是一道很神級的證明題,之後在思考一小段時間後果斷放棄。最近在翻閱一些書籍的時候,我偶然看到了很信息論有關的資料,再一次回想起了這一題。我在其中找了下,果然有這一道題的證明過程。於是,我就把這些證明過程整理一下,校正了書中證明過程中的錯誤,補充了些不全之處,寫成這篇博客。

       具體證明過程如下:


       首先,我們來看證明過程所用到的一個定理。

       琴聲(Jensen)不等式:假如函數爲凸函數,而爲關於x的任意函數,。琴聲不等式表明下列式子成立:


       同時,另一個需要涉及的概念爲KL散度(Kullback–Leibler divergence)。定義爲:。其中分別表示x的概率或概率密度。

       將進一步推導如下:

                  

       由此可見,信息增益對應於一個KL散度公式。因此,只要證明了KL散度公式的非負性,自然就證明了信息增益的非負性。

        

                      

                         (將看成對應成,同時

                      

                      

       上述過程證明了,因此,證明了的非負性(結論一)。而對於琴生不等式,等於成立的條件時恆等於某個定值c。所以當時,。由於均爲概率密度函數所以成立的條件是。而該條件也就意味着變量X和Y是相互獨立的(結論二)。

       


       


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章