1.6 Information Theory信息論簡介

今天開始學Pattern Recognition and Machine Learning (PRML)，章節1.6，Information Theory信息論簡介

前面有朋友說寫的東西太理論了，我想說我並不是在和很多其他博客一樣做topic的入門介紹，配合很多示意圖之類；而是在記錄PRML這本經典教科書的內容。如果想好好學Pattern Recognition and Machine Learning，建議花半年時間看一本國外經典。（前面忙實驗室的任務寫的太慢了，這本書要吃透是要花點時間。）章節1.3-1.5都是介紹性質的，我先不寫了後面有時間再補。

信息論，不用多說，在很多領域都得到了應用，應該算是一個相對成熟的主題。PRML這一節裏將介紹信息論的一些基本概念，主要是爲了明白這些概念是怎麼來的（如gain，entropy），代表什麼含義。在書裏沒有具體的應用結合，後面可以單獨簡介一節關於決策樹的方法，需要的信息論知識基本在這一節裏面可以覆蓋到。

章節1.6 Information Theory

直觀的一種理解，當我們聽到一個不太可能發生的事件時我們所接收的信息量要比聽到一件習以爲常的事件所接收的信息量大，如果我們聽到了一件必然發生的事情那麼我們接收到的信息就是0。讓我們考察對於一個離散隨機變量x，類似的出現那些概率很低的x取值時我們得到的信息量要大。

通過上面的解釋，首先，我們有理由認爲信息量的大小和隨機變量x的概率有關，我們用h(x)表示獲得的信息量的大小，p(x)表示離散隨機變量x取值的概率。我們相信h(x)和p(x)是單調負相關的（一個大另一個就小）。

再來考察這樣一個情況，如果觀察兩個相互無關（獨立）的事件x，y，我們得到的信息量可以寫成：

h(x,y) = h(x)+h(y);

而兩個相互獨立事件的概率符合：

P(x,y) = p(x)*p(y);

由此可見啊，h應當和p成對數（log）關係，於是，我們結合上述兩點觀察，得出

可見，信息量是大於等於0的。這裏我們先用2爲對數的底，此時，h的單位是bits。（信息量大小由比特長度來衡量。）

好了，讓我們考慮這樣一個情況，一個信息發送者要發送一個隨機變量的值給一個接收者，那麼在傳輸過程中的平均信息量是（1.92）的h(x)的期望：

該值就稱爲一個隨機變量的熵（Entropy），特別的，當p等於0的時候，p(x)logp(x)=0。接下來讓我們看一個實際的例子，來體會一下熵這個概念：

========================================================================

例子：假如一個隨機變量x有8種可能的狀態，每一種都有相同的概率。傳輸該變量我們至少需要3個bits（2^3=8），或者我們可以用熵來刻畫：

同樣是3個bits，即平均信息量爲3 bits，或者說我們平均需要3bits來傳輸。

考慮另外一種情況，如果x的8個狀態(a-h)的概率分別爲，那麼，熵爲：

也就是說，不均勻分佈的變量擁有較小的熵。在這個情況下，我們怎麼才能做到平均2bits來傳輸呢？因爲不均勻分佈，我們可以用短bit來代表大概率的狀態，長bit來代表小概率的狀態，把上述8個狀態編碼成0, 10, 110, 1110, 111100, 111101, 111110, 111111，這個時候，平均的編碼長度就是：