分類樹（信息熵與基尼指數）

文章目錄

一，決策樹的直觀理解

二，分類樹

2.1 信息熵

信息熵是用來衡量信息不確定性的指標，不確定性是一個事件出現不同結果的可能性。（越小越好）
計算如下：

其中：P(X=i)爲隨機變量x取值爲i的概率

舉個例子，如下：

可以看出，第一種的不確定性更高（信息熵較大）

2.2 條件信息熵

條件熵：在給定隨機變量Y的條件下，隨機變量X的不確定性

信息增益：信息熵 - 條件熵，代表在一個條件下，信息不確定性的減少程度

綠點：16個
十字：14個
總計：30個

通過某條件分隔父節點，可以看出靠下的子節點不確定性更小。
信息增益 = 父節點熵（0.996）- 子節點加權熵（0.615） = 0.381

示例

假設高爾夫球場擁有不同天氣時某個客戶的打球歷史記錄，如下圖：（我們無法單純的通過Yes和No的歷史頻度判斷客戶明天會不會打球，因此需要藉助天氣信息減少不確定性）

首先是構建根節點，我們先看下Play Golf的熵：

在14條歷史數據中，打球的概率爲5/14=0.64，不打球的概率爲9/14=0.36，熵值爲0.94.
接下來我們尋找晴朗與否，溼度，風力和溫度四種狀況與是否打球相關性最高的一個，進行決策樹的構建。

晴朗程度Outlook的條件熵與信息增益：

使用Outlook的條件熵：0.63*0.971 + 0.29*0 + 0.36*0.971 = 0.69
信息增益：0.940 - 0.69 = 0.25（最佳分隔特徵）

溫度Temp的條件熵與信息增益：

使用Temp的條件熵：0.29*1 + 0.43*0.918 + 0.29*0.811 = 0.92
信息增益：0.94 - 0.92 = 0.02

同理我們將其他的條件一併列出

選擇信息增益最大的進行劃分（使用Outlook進行劃分），則分割結果如下：

再對Sunny，Overcast，Rainy分別重複上述操作（但可以看出Overcast結果均爲Yes，則可以直接出其結果）

對Sunny節點進行劃分
Wind條件的信息增益最大，則選擇該條件作爲子節點

對Rain節點進行劃分
經過計算Humidity條件的信息增益最高，則選其爲子節點

最終構建決策樹結果如下：

使用決策樹進行預測

2.3 基尼指數（Gini不純度）

基尼指數表示在樣本集合中一個隨機選中的樣本被分錯的概率。
注意Gini指數越小表示被分錯的概率越小，也就是說樣本純度越高（當集合中的所有樣本均爲一類時，基尼指數爲0）
計算方法：

其中，pk表示選中的樣本屬於第k個類別的概率。

示例

根據天氣狀況預測是否打球，首先計算根節點基尼指數：

CART樹是二叉樹，對於一個有多個取值（超過2個）的特徵，需要計算以每個取值作爲劃分點，對樣本D劃分之後子集的純度Gini(D, A_i)，然後從所有的可能劃分的Gini(D, A_i)中找出Gini指數最小的劃分，這個劃分的劃分點，便是使用特徵A對樣本集合D進行劃分的最佳劃分點。

Outlook是最優的分割特徵，接下來計算rainy，overcast和sunny的基尼指數，選擇最小的作爲分割節點即可。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

分類樹（信息熵與基尼指數）

文章目錄

一，決策樹的直觀理解

二，分類樹

2.1 信息熵

2.2 條件信息熵

示例

2.3 基尼指數（Gini不純度）

示例

函數依賴和關係模式分解

範式篇 - BCNF、3NF和4NF

概率論 - 常見分佈（及其分佈表）

集成方法 - BaggingClassifier

這是一個小“廢”貼

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結