分類與迴歸樹(classification and regression tree, CART)模型是應用廣泛的決策樹學習方法,同樣由特徵選擇、樹的生成和剪枝組成,既可以用於分類也可以用於迴歸。
CART假設決策樹是二叉樹,內部結點特徵的取值爲“是”和“否”,左分支是取值爲“是”的分支,右分支是取值爲“否”的分支。
CART算法主要由以下兩步組成:
1.決策樹生成:基於訓練數據集生成決策樹,生成的決策樹要儘量大。
2.決策樹剪枝:用驗證數據集對已生成的樹進行剪枝並選擇最優子樹,這時用損失函數最小作爲剪枝的標準。
CART生成
決策樹的生成就是遞歸地構建二叉決策樹的過程,對迴歸樹用平方誤差最小化準則,對分類樹用基尼係數最小化準則,進行特徵選擇,生成二叉樹。
迴歸樹的生成
最小二乘迴歸樹生成算法
分類樹的生成
CART生成算法
CART剪枝
CART剪枝算法從“完全生長”的決策樹低端剪去一些子樹,使決策樹邊小,從而能夠對未知數據有更準確的預測。