分類迴歸樹(CART)的快速理解

迴歸樹

迴歸樹是一個迴歸模型,模型具有二叉樹結構。實際思想就是將特徵空間劃分爲若干個子空間,並計算每個子空間內樣本標註的均值。預測時,只需判斷樣本落入哪個子空間,其對應的子空間標註均值即是其預測值。

如何劃分特徵空間?
以連續性特徵空間爲例,要選擇合適的特徵維度和合適的劃分點。
具體方法就是遍歷所有的特徵維度和候選劃分點,使得劃分後,預測誤差的平方和最小(兩個子空間的總方差和最小)。重複該過程直到達到停止條件。
預測誤差的平方和:
E=xiR1(yic1)2+xiR2(yic2)2E = \sum\limits_{x_i\in R_1}(y_i-c_1)^2+\sum\limits_{x_i\in R_2}(y_i-c_2)^2

c1c2c_1,c_2爲子空間的樣本標註均值:
c1=1N1xiR1yic_1=\frac{1}{|N_1|}\sum\limits_{x_i\in R_1} y_i
c2=1N2xiR2yic_2=\frac{1}{|N_2|}\sum\limits_{x_i\in R_2} y_i

分類樹

分類樹是一個分類模型,和迴歸樹類似也具有二叉樹結構。實際思想也是劃分特徵空間,每個子空間天然屬於某一類,預測時只需判斷樣本落入哪個子空間,其對應子空間類別即是預測類別。

如何劃分特徵空間?

以連續特徵空間爲例,也需要選擇合適的特徵維度和合適的劃分點。與迴歸樹不同,分類樹用基尼係數指數來評價每一步的劃分性能。具體來說,針對一個集合,選擇一個特徵維度,然後選擇一個劃分點,根據特徵維度值是否等於該劃分點,可以將集合劃分爲兩個子集,然後計算兩個子集的基尼指數的加權和,子集權重等於該子集數量佔原集合的比例。該基尼指數加權和稱爲集合在某劃分條件下的基尼指數。

基尼指數定義:
基尼指數可以用來描述一個分佈或者一個集合的不確定性(和熵類似)。其數值等於 任意選擇兩個樣本, 這兩個樣本不屬於同一類的概率,如下式:
Gain(D)=1k=1CpkpkGain(D) = 1-\sum\limits_{k=1}^{C} p_kp_k
Gain(D,A)=D1DGain(D1)+D2DGain(D2)Gain(D,A) = \frac{|D_1|}{|D|}Gain(D_{1})+\frac{|D_2|}{|D|}Gain(D_{2})

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章