Gini Index vs Information Entropy

原創

Null_Pan

2020-06-16 12:29

背景：

決策樹根據其目標變量的“純度”遞歸拆分要素。整個算法旨在優化每個拆分，以最大程度地提高純度……什麼是純度？可以將純度視爲分組的均質性。您將在下面的示例中看到我的意思：

如果我們有4個紅色口香糖和0個藍色口香糖，則基於顏色作爲目標，這4個組是100％純的。
如果我們有2個紅色和2個藍色，則該組是100％不純的。

如果我們有3個紅色和1個藍色，那麼如果我們分別使用Gini或Entropy，則該組的純度爲75％或81％。

爲什麼這麼重要？根據使用哪種雜質測量，樹分類結果可能會有所不同。這可能會對模型造成較小（或有時很大！）的影響！

Gini Index Intuition:

讓我們從基尼索引開始，因爲它更容易理解。根據維基百科，目標是“測量從集合中隨機選擇的元素被錯誤標記的頻率”。

爲了直觀地說明這一點，讓我們回到口香糖示例。如果我們決定將所有四個口香糖隨意標記爲紅色，那麼其中一個口香糖會被錯誤的概率是多少

4紅色和0藍色：

雜質度量爲0，因爲我們永遠不會在這裏錯誤地標記4個紅色口香糖中的任何一個。如果我們任意選擇將所有球標記爲“藍色”，那麼我們的索引仍將爲0，因爲我們總是會錯誤地標記膠球。
無論您採用哪種任意類別的概率，基尼分數始終是相同的，因爲它們在上述公式中始終加爲0。
基尼分數爲0可能是最純粹的分數。

2紅色和2藍色：

雜質測量值爲0.5，因爲大約一半的時間我們會錯誤地將口香糖標記爲錯誤。因爲此索引用於二進制目標變量（0,1），所以基尼係數0.5是可能的最低純分數。一半是一種類型，另一半是另一種類型。將gini得分除以0.5可以幫助直觀地理解得分代表的含義。 0.5 / 0.5 = 1，表示分組儘可能不純（在只有2個結果的組中）。

3紅色和1藍色：

此處的雜質測量值爲0.375。如果將其除以0.5以獲得更直觀的理解，我們將得到0.75，這是錯誤/正確標記的可能性。

Entropy Intuition:

由於方程中的對數，熵的計算量更大。像基尼（Gini）一樣，基本思想是通過目標變量來衡量分組的混亂程度。該方法不是利用簡單的概率，而是採用概率的對數2（但是，只要您保持一致，就可以使用任何對數）。由於許多有利的性質，熵方程使用對數。主要優點是它提供的加性。這些MIT講義將有助於更清楚地理解該概念（pg8）。

讓我們想象一下在相同的口香糖場景中熵如何工作：
4紅色和0藍色：

毫不奇怪，對於熵而言，雜質測量也爲0。這是使用信息熵的最大純度得分。
2紅色和2藍色：

此處的雜質測量值爲1，因爲它是可獲得的最大雜質。
3紅色和1藍色：

此處的純度/雜質測量值爲0.811，比基尼評分稍差。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Gini Index vs Information Entropy

DAPPER 事務 TRANSACTION

Java中線程的創建方式

一鍵自動化博客發佈工具,chrome和firfox詳細配置

貝葉斯，深度學習問題複習

Perceptron, BP network

Affine Functions

深度置信網絡 Deep belief network

深度神經網絡批量歸一化的簡要介紹 batch normalization

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結