分類樹(信息熵與基尼指數)

一,決策樹的直觀理解

在這裏插入圖片描述

二,分類樹

2.1 信息熵

信息熵是用來衡量信息不確定性的指標,不確定性是一個事件出現不同結果的可能性。(越小越好)
計算如下:
在這裏插入圖片描述
其中:P(X=i)爲隨機變量x取值爲i的概率

舉個例子,如下:
在這裏插入圖片描述
可以看出,第一種的不確定性更高(信息熵較大)

2.2 條件信息熵

條件熵:在給定隨機變量Y的條件下,隨機變量X的不確定性
在這裏插入圖片描述
信息增益:信息熵 - 條件熵,代表在一個條件下,信息不確定性的減少程度
在這裏插入圖片描述
在這裏插入圖片描述

  • 綠點:16個
  • 十字:14個
  • 總計:30個

通過某條件分隔父節點,可以看出靠下的子節點不確定性更小。
信息增益 = 父節點熵(0.996)- 子節點加權熵(0.615) = 0.381

示例

假設高爾夫球場擁有不同天氣時某個客戶的打球歷史記錄,如下圖:(我們無法單純的通過Yes和No的歷史頻度判斷客戶明天會不會打球,因此需要藉助天氣信息減少不確定性)
在這裏插入圖片描述
首先是構建根節點,我們先看下Play Golf的熵:
在這裏插入圖片描述
在14條歷史數據中,打球的概率爲5/14=0.64,不打球的概率爲9/14=0.36,熵值爲0.94.
接下來我們尋找晴朗與否,溼度,風力和溫度四種狀況與是否打球相關性最高的一個,進行決策樹的構建。

晴朗程度Outlook的條件熵與信息增益:
在這裏插入圖片描述
使用Outlook的條件熵:0.63*0.971 + 0.29*0 + 0.36*0.971 = 0.69
信息增益:0.940 - 0.69 = 0.25(最佳分隔特徵)

溫度Temp的條件熵與信息增益:
在這裏插入圖片描述
使用Temp的條件熵:0.29*1 + 0.43*0.918 + 0.29*0.811 = 0.92
信息增益:0.94 - 0.92 = 0.02

同理我們將其他的條件一併列出
在這裏插入圖片描述
選擇信息增益最大的進行劃分(使用Outlook進行劃分),則分割結果如下:
在這裏插入圖片描述
在這裏插入圖片描述
再對Sunny,Overcast,Rainy分別重複上述操作(但可以看出Overcast結果均爲Yes,則可以直接出其結果)

對Sunny節點進行劃分
Wind條件的信息增益最大,則選擇該條件作爲子節點
在這裏插入圖片描述
對Rain節點進行劃分
經過計算Humidity條件的信息增益最高,則選其爲子節點
在這裏插入圖片描述
最終構建決策樹結果如下:
在這裏插入圖片描述
使用決策樹進行預測
在這裏插入圖片描述

2.3 基尼指數(Gini不純度)

基尼指數表示在樣本集合中一個隨機選中的樣本被分錯的概率
注意Gini指數越小表示被分錯的概率越小,也就是說樣本純度越高(當集合中的所有樣本均爲一類時,基尼指數爲0)
計算方法:
在這裏插入圖片描述
其中,pk表示選中的樣本屬於第k個類別的概率。

示例

根據天氣狀況預測是否打球,首先計算根節點基尼指數:
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
CART樹是二叉樹,對於一個有多個取值(超過2個)的特徵,需要計算以每個取值作爲劃分點,對樣本D劃分之後子集的純度Gini(D, Ai),然後從所有的可能劃分的Gini(D, Ai)中找出Gini指數最小的劃分,這個劃分的劃分點,便是使用特徵A對樣本集合D進行劃分的最佳劃分點。
在這裏插入圖片描述
Outlook是最優的分割特徵,接下來計算rainy,overcast和sunny的基尼指數,選擇最小的作爲分割節點即可。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章