決策樹

瞭解決策樹前一定要先了解熵,熵在信息論中表示隨機變量不確定性的度量,用於描述隨機變量的混亂度,熵的值越大表示該隨機變量很混亂,熵值低表示該隨機變量不混亂,可以很清晰的對其進行區分。所以我們在劃分決策樹的時候,就是盡力去找到能使得熵值很低的特徵來對數據進行劃分,以此作爲決策樹的劃分準則。

到底什麼是熵?

假設現在有32只隊伍進入世界盃,但是你錯過了直播,你去問其他人,那隻隊伍是冠軍?但是他不要讓你猜,猜一次一塊錢,猜對爲止。那麼最省錢的方式是:先問:冠軍球隊在1-16號之間嗎?如果猜對了,則繼續問:是在1-8號之間嗎?這就是一個二分的問題,這樣去猜是最快的,而我們這樣只需要猜五次就肯定能猜到了那隻隊伍是冠軍了。所以這個問題值五塊錢。
計算機中數據都是用“比特”(bit)來表示的,所以香農用bit來表示一個信息的信息量。一個比特是一位二進制數,一個字節是8個比特。比如上面的球隊冠軍問題信息量就是5比特,如果64個球隊找冠軍,那麼信息量就是6比特,可以看出來,具體的計算如下
(log32=5;log64=6)。
這裏又有一個問題,其實各個球隊奪冠的概率是不一樣的,像西班牙、巴西、德國、意大利奪冠的概率就比日本、南非、韓國大很多。所以其實在真正計算的時候,是可以加入一些先驗信息的。那麼當我們在猜球隊的時候,可以把一些概率大的少數球隊猜一組,概率小的猜一組,它的準確信息量應該是
在這裏插入圖片描述
其中
在這裏插入圖片描述
這裏寫圖片描述分別是這32支球隊奪冠的概率。香農把它稱爲“信息熵”,一般用符號H表示,單位是比特。當概率相同的時候就是5比特。對於任意一個隨機變量X,它的熵定義:
在這裏插入圖片描述
這裏寫圖片描述這裏對數以2爲底或者以e爲底時熵的單位分別稱爲比特(bit)或納特(nat)。

條件熵

H(Y|X)表示在已知隨機變量X的條件下隨機變量Y的不確定性。隨機變量X給定的條件下隨機變量Y的條件熵(conditional entropy)H(Y|X),定義爲X給定條件下Y的條件概率分佈的熵對X的數學期望
在這裏插入圖片描述

信息增益(ID3)

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

信息增益率(C4.5)

由於信息增益會偏向取值較多的特徵(過擬合),解釋:當特徵A取值很多,則劃分出的組數增多,使得H(D|A)減小,則信息增益增大。但是過於精細的劃分,會使得分類失去意義。(比如按照身份證號給人分類,則每一個人都是一類)。
在這裏插入圖片描述
IV(a) 是特徵 a 的熵。

增益率對特徵值較少的特徵有一定偏好,因此 C4.5C4.5 算法選擇特徵的方法是先從候選特徵中選出信息增益高於平均水平的特徵,再從這些特徵中選擇增益率最高的。

基尼指數(CART)

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

決策樹使用

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章