Data Mining
信息論
信息論(Information Theory)是概率論與數理統計的一個分枝。用於信息處理、信息熵、通信系統、數據傳輸、率失真理論、密碼學、信噪比、數據壓縮和相關課題。
基本概念
先說明一點:在信息論裏面對數log默認都是指以2爲底數。
自信息量
聯合自信息量
條件自信息量
信息熵
條件熵
聯合熵
根據鏈式規則,有
可以得出
信息增益Information Gain
系統原先的熵是H(X),在條件Y已知的情況下系統的熵(條件熵)爲H(X|Y),信息增益就是這兩個熵的差值。
熵表示系統的不確定度,所以信息增益越大表示條件Y對於確定系統的貢獻越大。
信息增益在特徵選擇中的應用
由(7)式可以直接推出詞條w的信息增益,(7)式中的X代表類別的集合,Y代表w存在和不存在兩種情況
p(ci)是第i類文檔出現的概率;p(w)是在整個訓練集中包含w的文檔佔全部文檔的比例;p(ci|w)表示出現w的文檔集合中屬於類別i的文檔所佔的比例;表示沒有出現w的文檔集合中屬於類別i的文檔所佔的比例。
信息增益在決策樹中的應用
outlook | temperature | humidity | windy | play |
sunny | hot | high | FALSE | no |
sunny | hot | high | TRUE | no |
overcast | hot | high | FALSE | yes |
rainy | mild | high | FALSE | yes |
rainy | cool | normal | FALSE | yes |
rainy | cool | normal | TRUE | no |
overcast | cool | normal | TRUE | yes |
sunny | mild | high | FALSE | no |
sunny | cool | normal | FALSE | yes |
rainy | mild | normal | FALSE | yes |
sunny | mild | normal | TRUE | yes |
overcast | mild | high | TRUE | yes |
overcast | hot | normal | FALSE | yes |
rainy | mild | high | TRUE | no |
(7)式中的X表示打球和不打球兩種情況。
只看最後一列我們得到打球的概率是9/14,不打球的概率是5/14。因此在沒有任何先驗信息的情況下,系統的熵(不確定性)爲
outlook | temperature | humidity | windy | play | |||||||||
yes | no | yes | no | yes | no | yes | no | yes | no | ||||
sunny | 2 | 3 | hot | 2 | 2 | high | 3 | 4 | FALSE | 6 | 2 | 9 | 5 |
overcast | 4 | 0 | mild | 4 | 2 | normal | 6 | 1 | TRUR | 3 | 3 | ||
rainy | 3 | 2 | cool | 3 | 1 |
如果選outlook作爲決策樹的根節點,(7)式中的Y爲集合{sunny、overcast、rainy},此時的條件熵爲
即選擇outlook作爲決策樹的根節點時,信息增益爲0.94-0.693=0.247。
同樣方法計算當選擇temperature、humidity、windy作爲根節點時系統的信息增益,選擇IG值最大的作爲最終的根節點。
互信息Mutual Informantion
yj對xi的互信息定義爲後驗概率與先驗概率比值的對數。
互信息越大,表明yj對於確定xi的取值的貢獻度越大。
系統的平均互信息
可見平均互信息就是信息增益!
互信息在特徵選擇中的應用
詞條w與類別ci的互信息爲
p(w)表示出現w的文檔點總文檔數目的比例,p(w|ci)表示在類別ci中出現w的文檔點總文檔數目的比例。
對整個系統來說,詞條w的互信息爲
最後選互信息最大的前K個詞條作爲特徵項。
交叉熵Cross Entropy
交叉熵是一種萬能的Monte-Carlo技術,常用於稀有事件的仿真建模、多峯函數的最優化問題。交叉熵技術已用於解決經典的旅行商問題、揹包問題、最短路問題、最大割問題等。這裏給一個文章鏈接:A Tutorial on the Cross-Entropy Method
交叉熵算法的推導過程中又牽扯出來一個問題:如何求一個數學期望?常用的方法有這麼幾種:
- 概率方法,比如Crude Monte-Carlo
- 測度變換法change of measure
- 偏微分方程的變量代換法
- Green函數法
- Fourier變換法
在實際中變量X服從的概率分佈h往往是不知道的,我們會用g來近似地代替h----這本質上是一種函數估計。有一種度量g和h相近程度的方法叫 Kullback-Leibler距離,又叫交叉熵:
通常選取g和h具有相同的概率分佈類型(比如已知h是指數分佈,那麼就選g也是指數分佈)----參數估計,只是pdf參數不一樣(實際上h中的參數根本就是未知的)。
基於期望交叉熵的特徵項選擇
p(ci|w)表示在出現詞條w時文檔屬於類別ci的概率。
交叉熵反應了文本類別的概率分佈與在出現了某個詞條的情況下文本類別的概率分佈之間的距離。詞條的交叉熵越大,對文本類別分佈影響也就越大。所以選CE最大的K個詞條作爲最終的特徵項。