[閱讀筆記]《統計學習方法》李航著:Chp5 決策樹

[閱讀筆記]《統計學習方法》李航著:Chp5 決策樹

本章概要

本章概要1
本章概要2
本章概要3

5.1 決策樹模型與學習

  • 損失函數:正則化的極大似然函數,策略:最小化損失函數
  • 樹的生成停止條件:
    1. 所有訓練數據子集都被基本正確分類
    2. 沒有合適的特徵
  • 可能產生過擬合現象因此需要剪枝
  • 決策樹的生成考慮局部最優,剪枝則考慮全局最優

5.2 特徵選擇

  • Why:特徵數量很多,通過選擇留下對訓練數據有足夠分類能力的特徵
  • How/準則:信息增益、信息增益比

5.3 決策樹的生成

  • ID3:信息增益,只有樹的生成易過擬合
  • C4.5:信息增益比

5.4 決策樹的剪枝

  • 可以在局部進行,因此可以用動態規劃算法實現

5.5 CART算法

  • 假設決策樹爲二叉樹
  • 生成:生成的樹儘可能大;迴歸樹-平方誤差最小化;分類樹-基尼指數最小化
  • 剪枝:用驗證數據集對已生成的樹進行剪枝並選擇最優子樹,準則——損失函數最小
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章