數據挖掘十大經典算法(10) CART: 分類與迴歸樹

如果一個人必須去選擇在很大範圍的情形下性能都好的、同時不需要應用開發者付出很多的努力並且易於被終端用戶理解的分類技術的話,那麼Brieman, Friedman, Olshen和Stone(1984)提出的分類樹方法是一個強有力的競爭者。我們將首先討論這個分類的過程,然後在後續的節中我們將展示這個過程是如何被用來預測連續的因變量。Brieman等人用來實現這些過程的程序被稱爲分類和迴歸樹(CART, Classification and Regression Trees)方法。


分類樹
在分類樹下面有兩個關鍵的思想。第一個是關於遞歸地劃分自變量空間的想法;第二個想法是用驗證數據進行剪枝。


遞歸劃分
讓我們用變量y表示因變量(分類變量),用x1, x2, x3,...,xp表示自變量。通過遞歸的方式把關於變量x的p維空間劃分爲不重疊的矩形。這個劃分是以遞歸方式完成的。首先,一個自變量被選擇,比如xi和xi的一個值si,比方說選擇si把p維空間爲兩部分:一部分是p維的超矩形,其中包含的點都滿足xi<=si,另一個p維超矩形包含所有的點滿足xi>si。接着,這兩部分中的一個部分通過選擇一個變量和該變量的劃分值以相似的方式被劃分。這導致了三個矩形區域(從這裏往後我們把超矩形都說成矩形)。隨着這個過程的持續,我們得到的矩形越來越小。這個想法是把整個x空間劃分爲矩形,其中的每個小矩形都儘可能是同構的或“純”的。“純”的意思是(矩形)所包含的點都屬於同一類。我們認爲包含的點都只屬於一個類(當然,這不總是可能的,因爲經常存在一些屬於不同類的點,但這些點的自變量有完全相同的值)。

 

更多內容參閱:

http://www.core.org.cn/NR/rdonlyres/Sloan-School-of-Management/15-062Data-MiningSpring2003/338F02AD-0DD8-4199-8727-35FCF5A15B57/0/L3ClassTrees.pdf

 

http://www.cqvip.com/onlineread/onlineread.asp?ID=28180864

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章