決策樹purity/基尼係數/信息增益 Decision Trees

決策樹簡單描述

決策樹的樣子大概是這個樣子的:
在這裏插入圖片描述

選擇一個特徵作爲根節點,把這個特徵劃分成兩個孩子節點,每個孩子節點就是原始數據集的子集,然後再找一個特徵作爲劃分……


劃分的好壞,如圖所示:
在這裏插入圖片描述

用純度Purity來衡量劃分的效果,如果劃分的好,那麼每一個子集都是某一類佔據大多數,如果每一個子集都是跟父節點一樣的狀態,那麼就是Low purity。

一個好的劃分要滿足下面兩個特點:

  1. 劃分是High purity
  2. 劃分產生的兩個子節點的樣本數量相近,避免產生非常小的子集。

決策樹的終止條件

  1. 樹的深度到達一定條件;
  2. 每一個節點中的樣本數量到達一個下線
  3. 不會再有劃分,可以增加節點的purity了

衡量purity的三種方法

有不同的衡量purity的方法,不同的衡量方法會導致不同的分裂。

Gini Coefficient

在這裏插入圖片描述

  • Pr(k)是一個樣本屬於類別K的概率;
  • C就是類別的總數

GINI係數的計算方法:

在這裏插入圖片描述


Entropy熵

在這裏插入圖片描述
可以看出來,GINI係數是類別的概率乘上類別的概率,而熵是類別的概率呈上類別概率的logarithm

  • GINI的取值範圍是0.5~1,越大越purity;
  • Entropy的取值範圍是0~1,越小越purity
    介紹完了熵,那麼什麼是信息增益
    是要最大化的信息增益:
    在這裏插入圖片描述
    因爲Entropy取值範圍是0就purity,所以information gain越大,那麼說明分割的purity越好。

看一下Entropy的計算方法:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章