Gini Index vs Information Entropy

背景:

決策樹根據其目標變量的“純度”遞歸拆分要素。 整個算法旨在優化每個拆分,以最大程度地提高純度……什麼是純度? 可以將純度視爲分組的均質性。 您將在下面的示例中看到我的意思:

如果我們有4個紅色口香糖和0個藍色口香糖,則基於顏色作爲目標,這4個組是100%純的。
如果我們有2個紅色和2個藍色,則該組是100%不純的。

如果我們有3個紅色和1個藍色,那麼如果我們分別使用Gini或Entropy,則該組的純度爲75%或81%。

爲什麼這麼重要? 根據使用哪種雜質測量,樹分類結果可能會有所不同。 這可能會對模型造成較小(或有時很大!)的影響!

Gini Index Intuition:
在這裏插入圖片描述
讓我們從基尼索引開始,因爲它更容易理解。 根據維基百科,目標是“測量從集合中隨機選擇的元素被錯誤標記的頻率”。

爲了直觀地說明這一點,讓我們回到口香糖示例。 如果我們決定將所有四個口香糖隨意標記爲紅色,那麼其中一個口香糖會被錯誤的概率是多少

4紅色和0藍色:
在這裏插入圖片描述
雜質度量爲0,因爲我們永遠不會在這裏錯誤地標記4個紅色口香糖中的任何一個。 如果我們任意選擇將所有球標記爲“藍色”,那麼我們的索引仍將爲0,因爲我們總是會錯誤地標記膠球。
無論您採用哪種任意類別的概率,基尼分數始終是相同的,因爲它們在上述公式中始終加爲0。
基尼分數爲0可能是最純粹的分數。

2紅色和2藍色:
在這裏插入圖片描述
雜質測量值爲0.5,因爲大約一半的時間我們會錯誤地將口香糖標記爲錯誤。 因爲此索引用於二進制目標變量(0,1),所以基尼係數0.5是可能的最低純分數。 一半是一種類型,另一半是另一種類型。 將gini得分除以0.5可以幫助直觀地理解得分代表的含義。 0.5 / 0.5 = 1,表示分組儘可能不純(在只有2個結果的組中)。

3紅色和1藍色:
在這裏插入圖片描述
此處的雜質測量值爲0.375。 如果將其除以0.5以獲得更直觀的理解,我們將得到0.75,這是錯誤/正確標記的可能性。

Entropy Intuition:
在這裏插入圖片描述

由於方程中的對數,熵的計算量更大。 像基尼(Gini)一樣,基本思想是通過目標變量來衡量分組的混亂程度。 該方法不是利用簡單的概率,而是採用概率的對數2(但是,只要您保持一致,就可以使用任何對數)。 由於許多有利的性質,熵方程使用對數。 主要優點是它提供的加性。 這些MIT講義將有助於更清楚地理解該概念(pg8)。

讓我們想象一下在相同的口香糖場景中熵如何工作:
4紅色和0藍色:
在這裏插入圖片描述
毫不奇怪,對於熵而言,雜質測量也爲0。 這是使用信息熵的最大純度得分。
2紅色和2藍色:

在這裏插入圖片描述
此處的雜質測量值爲1,因爲它是可獲得的最大雜質。
3紅色和1藍色:
在這裏插入圖片描述
此處的純度/雜質測量值爲0.811,比基尼評分稍差。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章