信息論

原創

raoqiang19911215

2018-09-03 14:20

信息論

信息論（Information Theory）是概率論與數理統計的一個分枝。用於信息處理、信息熵、通信系統、數據傳輸、率失真理論、密碼學、信噪比、數據壓縮和相關課題。

基本概念

先說明一點：在信息論裏面對數log默認都是指以2爲底數。

自信息量

聯合自信息量

條件自信息量

信息熵

條件熵

聯合熵

根據鏈式規則，有

可以得出

信息增益Information Gain

系統原先的熵是H(X)，在條件Y已知的情況下系統的熵（條件熵）爲H(X|Y)，信息增益就是這兩個熵的差值。

熵表示系統的不確定度，所以信息增益越大表示條件Y對於確定系統的貢獻越大。

信息增益在特徵選擇中的應用

由（7）式可以直接推出詞條w的信息增益，（7）式中的X代表類別的集合，Y代表w存在和不存在兩種情況

p(c_i)是第i類文檔出現的概率；p(w)是在整個訓練集中包含w的文檔佔全部文檔的比例；p(c_i|w)表示出現w的文檔集合中屬於類別i的文檔所佔的比例；表示沒有出現w的文檔集合中屬於類別i的文檔所佔的比例。

信息增益在決策樹中的應用

outlook	temperature	humidity	windy	play
sunny	hot	high	FALSE	no
sunny	hot	high	TRUE	no
overcast	hot	high	FALSE	yes
rainy	mild	high	FALSE	yes
rainy	cool	normal	FALSE	yes
rainy	cool	normal	TRUE	no
overcast	cool	normal	TRUE	yes
sunny	mild	high	FALSE	no
sunny	cool	normal	FALSE	yes
rainy	mild	normal	FALSE	yes
sunny	mild	normal	TRUE	yes
overcast	mild	high	TRUE	yes
overcast	hot	normal	FALSE	yes
rainy	mild	high	TRUE	no

（7）式中的X表示打球和不打球兩種情況。

只看最後一列我們得到打球的概率是9/14，不打球的概率是5/14。因此在沒有任何先驗信息的情況下，系統的熵（不確定性）爲

outlook			temperature			humidity			windy			play
	yes	no		yes	no		yes	no		yes	no	yes	no
sunny	2	3	hot	2	2	high	3	4	FALSE	6	2	9	5
overcast	4	0	mild	4	2	normal	6	1	TRUR	3	3
rainy	3	2	cool	3	1

如果選outlook作爲決策樹的根節點，（7）式中的Y爲集合{sunny、overcast、rainy}，此時的條件熵爲

即選擇outlook作爲決策樹的根節點時，信息增益爲0.94-0.693=0.247。

同樣方法計算當選擇temperature、humidity、windy作爲根節點時系統的信息增益，選擇IG值最大的作爲最終的根節點。

互信息Mutual Informantion

y_j對x_i的互信息定義爲後驗概率與先驗概率比值的對數。

互信息越大，表明y_j對於確定x_i的取值的貢獻度越大。

系統的平均互信息

可見平均互信息就是信息增益！

互信息在特徵選擇中的應用

詞條w與類別c_i的互信息爲

p(w)表示出現w的文檔點總文檔數目的比例，p(w|c_i)表示在類別c_i中出現w的文檔點總文檔數目的比例。

對整個系統來說，詞條w的互信息爲

最後選互信息最大的前K個詞條作爲特徵項。

交叉熵Cross Entropy

交叉熵是一種萬能的Monte-Carlo技術，常用於稀有事件的仿真建模、多峯函數的最優化問題。交叉熵技術已用於解決經典的旅行商問題、揹包問題、最短路問題、最大割問題等。這裏給一個文章鏈接：A Tutorial on the Cross-Entropy Method

交叉熵算法的推導過程中又牽扯出來一個問題：如何求一個數學期望？常用的方法有這麼幾種：

概率方法，比如Crude Monte-Carlo
測度變換法change of measure
偏微分方程的變量代換法
Green函數法
Fourier變換法

在實際中變量X服從的概率分佈h往往是不知道的，我們會用g來近似地代替h----這本質上是一種函數估計。有一種度量g和h相近程度的方法叫 Kullback-Leibler距離，又叫交叉熵：

通常選取g和h具有相同的概率分佈類型（比如已知h是指數分佈，那麼就選g也是指數分佈）----參數估計，只是pdf參數不一樣（實際上h中的參數根本就是未知的）。

基於期望交叉熵的特徵項選擇

p(c_i|w)表示在出現詞條w時文檔屬於類別c_i的概率。

交叉熵反應了文本類別的概率分佈與在出現了某個詞條的情況下文本類別的概率分佈之間的距離。詞條的交叉熵越大，對文本類別分佈影響也就越大。所以選CE最大的K個詞條作爲最終的特徵項。

原文來自:博客園（華夏35度）http://www.cnblogs.com/zhangchaoyang 作者:Orisun

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

圖像的論輪廓提取算法與代碼

第7章邊沿檢測與提取，輪廓跟蹤我們在第三章介紹平滑與銳化時引入了模板操作，今天還要用到它。 7.1 邊沿檢測我們給出一個模板和一幅圖象。不難發現原圖中左邊暗，右邊亮，中間存在着一條明顯的邊界。進行模板操作後的結果如下：

raoqiang19911215

2020-06-21 08:33:55

基於能量模型的RBM

基於能量的模型和波爾茲曼機 APR 12TH, 2013 | COMMENTS 由於深度置信網絡（Deep Belief Networks，DBN）是基於限制性玻爾茲曼機（Restricted Boltzmann Machi

raoqiang19911215

2020-06-21 08:33:55

ubuntu安裝Theano+cuda

ubuntu安裝Theano+cuda 時間：2013-12-17 作者： NOBUG 閱讀次數：23 內容提示：問題就是：難安裝。爲了搞好這個配置，我是前前後後花了3天，重裝了3次ubuntu重裝了5次驅動才搞定。故發此

raoqiang19911215

2020-06-21 09:16:26

python與C 聯合編譯

Python與C++聯合編程的簡介類型：Python，創建時間：三月 22, 2013, 8:47 p.m. 標題無“轉載”即原創文章，版權所有。轉載請註明來源：http://hgoldfish.com/blogs/article

raoqiang19911215

2020-06-21 08:33:55

iOS CoreBluetooth 教程藍牙技術

2020-02-25 22:30:04

簡單實現飄雪花效果

2020-02-25 22:30:04

IOS中Socket詳解

2020-02-25 22:30:04

ios扁平化UI庫-》FlatUIKit

2020-02-25 22:30:04

Objective-C相關Category的收集

2020-02-25 22:30:04

mac 終端常用命令

2020-02-25 22:30:04

檢索,查詢,篩選,過濾

2020-02-25 22:30:04

ios系統自帶搖一搖功能實現

2020-02-25 22:30:04

升級xcode時更換appid賬戶

2020-02-25 22:30:04

ios開發中的基本設計模式（簡單歸類）

2020-02-25 22:30:04

UIView視圖中比較常見的方法總結

2020-02-25 22:29:54

24小時熱門文章

最新文章

最新評論文章