決策樹

決策樹

原創

2019-06-12 00:00

熵

瞭解決策樹前一定要先了解熵，熵在信息論中表示隨機變量不確定性的度量，用於描述隨機變量的混亂度，熵的值越大表示該隨機變量很混亂，熵值低表示該隨機變量不混亂，可以很清晰的對其進行區分。所以我們在劃分決策樹的時候，就是盡力去找到能使得熵值很低的特徵來對數據進行劃分，以此作爲決策樹的劃分準則。

到底什麼是熵？

假設現在有32只隊伍進入世界盃，但是你錯過了直播，你去問其他人，那隻隊伍是冠軍？但是他不要讓你猜，猜一次一塊錢，猜對爲止。那麼最省錢的方式是：先問：冠軍球隊在1-16號之間嗎？如果猜對了，則繼續問：是在1-8號之間嗎？這就是一個二分的問題，這樣去猜是最快的，而我們這樣只需要猜五次就肯定能猜到了那隻隊伍是冠軍了。所以這個問題值五塊錢。
計算機中數據都是用“比特”（bit）來表示的，所以香農用bit來表示一個信息的信息量。一個比特是一位二進制數，一個字節是8個比特。比如上面的球隊冠軍問題信息量就是5比特，如果64個球隊找冠軍，那麼信息量就是6比特，可以看出來，具體的計算如下
（log32=5;log64=6）。
這裏又有一個問題，其實各個球隊奪冠的概率是不一樣的，像西班牙、巴西、德國、意大利奪冠的概率就比日本、南非、韓國大很多。所以其實在真正計算的時候，是可以加入一些先驗信息的。那麼當我們在猜球隊的時候，可以把一些概率大的少數球隊猜一組，概率小的猜一組，它的準確信息量應該是

其中

這裏寫圖片描述分別是這32支球隊奪冠的概率。香農把它稱爲“信息熵”，一般用符號H表示，單位是比特。當概率相同的時候就是5比特。對於任意一個隨機變量X，它的熵定義：

這裏寫圖片描述這裏對數以2爲底或者以e爲底時熵的單位分別稱爲比特（bit）或納特（nat）。