[閱讀筆記]《統計學習方法》李航著:Chp5 決策樹
本章概要
5.1 決策樹模型與學習
- 損失函數:正則化的極大似然函數,策略:最小化損失函數
- 樹的生成停止條件:
- 所有訓練數據子集都被基本正確分類
- 沒有合適的特徵
- 可能產生過擬合現象因此需要剪枝
- 決策樹的生成考慮局部最優,剪枝則考慮全局最優
5.2 特徵選擇
- Why:特徵數量很多,通過選擇留下對訓練數據有足夠分類能力的特徵
- How/準則:信息增益、信息增益比
5.3 決策樹的生成
- ID3:信息增益,只有樹的生成易過擬合
- C4.5:信息增益比
5.4 決策樹的剪枝
- 可以在局部進行,因此可以用動態規劃算法實現
5.5 CART算法
- 假設決策樹爲二叉樹
- 生成:生成的樹儘可能大;迴歸樹-平方誤差最小化;分類樹-基尼指數最小化
- 剪枝:用驗證數據集對已生成的樹進行剪枝並選擇最優子樹,準則——損失函數最小