第7章 決策樹建模
7.1 屬性劃分
本章使用CART樹(分類迴歸樹)來做分類,找到最優拆分屬性和最優拆分屬性值後進行劃分。如何選擇劃分分案,通過計算數據集合的混雜程度。對於混雜程度的測度,有多種方案,這裏用以下兩種:
- 基尼不純度:將來自集合中的某種結果隨機應用於集合中某一數據項的預期誤差率。即
GiniImpurity=∑i∑j≠ipi⋅pj=1−∑ip2i - 熵:代表的是集合的無序程度,即
Entropy=∑i−pilogpi
熵和基尼不純度之間的主要區別在於,熵達到峯值的過程要相對慢一些。
7.2 決策樹的剪枝
本章採用的是後剪枝策略,先創建一顆完整的決策樹,考察某個節點,如果將其子節點合併熵的增加量小於某個指定的閾值,則合併其子節點。
這部分可參考李航老師的《統計學習方法》,利用決策樹的損失函數來剪枝,損失函數加入了樹葉子節點數作爲正則項。
這章我覺得寫得有點簡略,ID3、C4.5、CART這三者都沒有介紹清楚(熵增益比都沒說=。=),這塊還是建議看《統計學習方法》和西瓜書吧~~