三種常見的決策樹:CART,C5,CHAID

決策樹需要計算結點的純度來選擇最具顯著性的切分(split)。通常,CART以Gini,C5以信息增益(熵),CHAID以卡方。雖然存在這樣的差別,但他們樹形狀的不同更爲重要一些。
卡方:http://wenku.baidu.com/view/7c8962eeaeaad1f346933f5f.html
C5起源於計算科學領域,講究小樣本上的重複測試比較(cross validation),進一步地,C5會進行規則(Rule Set)的概化以自動產生更爲簡潔的規則表達形式。犧牲一些精度來換取更好記的規則,對於業務人員來說無疑是值得的。

CART與CHAID,一個是二叉樹,一個是多叉樹;CART在每一個分支都選擇最好的二元切分,因此一個變量(field)很可能在不同的樹深處被多次使用;CHAID則一次對一個變量切分出多個統計顯著的分支,會更快的生長出高預測能力的樹枝,但同時在深度子結點的支持度相比CART迅速降低,更快地逼近一棵臃腫而不穩定的樹。

爲了避免過度擬合(over fit)而成爲不穩定的樹,葉結點需要裁剪(prune)。儘管CART提供了自動搜索潛在可能的樹分支並根據測試集裁剪回來的策略,但事實上並不足以依賴;統計意義不是決策規則的決定因素,商業理解結合手工裁剪(custom split)可能是更好的選擇。另外,少於100條數據的葉結點很可能是不穩定的,你將從測試集中發現這一點。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章