《集體智慧編程》第7章 決策樹建模 個人筆記

第7章 決策樹建模

7.1 屬性劃分

本章使用CART樹(分類迴歸樹)來做分類,找到最優拆分屬性和最優拆分屬性值後進行劃分。如何選擇劃分分案,通過計算數據集合的混雜程度。對於混雜程度的測度,有多種方案,這裏用以下兩種:

  • 基尼不純度:將來自集合中的某種結果隨機應用於集合中某一數據項的預期誤差率。即
    GiniImpurity=ijipipj=1ip2i
  • 熵:代表的是集合的無序程度,即
    Entropy=ipilogpi

    熵和基尼不純度之間的主要區別在於,熵達到峯值的過程要相對慢一些。

7.2 決策樹的剪枝

本章採用的是後剪枝策略,先創建一顆完整的決策樹,考察某個節點,如果將其子節點合併熵的增加量小於某個指定的閾值,則合併其子節點。

這部分可參考李航老師的《統計學習方法》,利用決策樹的損失函數來剪枝,損失函數加入了樹葉子節點數作爲正則項。

這章我覺得寫得有點簡略,ID3、C4.5、CART這三者都沒有介紹清楚(熵增益比都沒說=。=),這塊還是建議看《統計學習方法》和西瓜書吧~~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章