分類迴歸樹(CART)的快速理解

原創

2020-06-17 18:36

迴歸樹

迴歸樹是一個迴歸模型，模型具有二叉樹結構。實際思想就是將特徵空間劃分爲若干個子空間，並計算每個子空間內樣本標註的均值。預測時，只需判斷樣本落入哪個子空間，其對應的子空間標註均值即是其預測值。

如何劃分特徵空間？
以連續性特徵空間爲例，要選擇合適的特徵維度和合適的劃分點。
具體方法就是遍歷所有的特徵維度和候選劃分點，使得劃分後，預測誤差的平方和最小(兩個子空間的總方差和最小)。重複該過程直到達到停止條件。
預測誤差的平方和:
$E = \sum\limits_{x_i\in R_1}(y_i-c_1)^2+\sum\limits_{x_i\in R_2}(y_i-c_2)^2$

$c_1，c_2$ 爲子空間的樣本標註均值：
$c_1=\frac{1}{|N_1|}\sum\limits_{x_i\in R_1} y_i$ ，
$c_2=\frac{1}{|N_2|}\sum\limits_{x_i\in R_2} y_i$ 。

分類樹

分類樹是一個分類模型，和迴歸樹類似也具有二叉樹結構。實際思想也是劃分特徵空間，每個子空間天然屬於某一類，預測時只需判斷樣本落入哪個子空間，其對應子空間類別即是預測類別。

如何劃分特徵空間？

以連續特徵空間爲例，也需要選擇合適的特徵維度和合適的劃分點。與迴歸樹不同，分類樹用基尼係數指數來評價每一步的劃分性能。具體來說，針對一個集合，選擇一個特徵維度，然後選擇一個劃分點，根據特徵維度值是否等於該劃分點，可以將集合劃分爲兩個子集，然後計算兩個子集的基尼指數的加權和，子集權重等於該子集數量佔原集合的比例。該基尼指數加權和稱爲集合在某劃分條件下的基尼指數。

基尼指數定義：
基尼指數可以用來描述一個分佈或者一個集合的不確定性（和熵類似）。其數值等於任意選擇兩個樣本，這兩個樣本不屬於同一類的概率，如下式：
$Gain(D) = 1-\sum\limits_{k=1}^{C} p_kp_k$ 。
$Gain(D,A) = \frac{|D_1|}{|D|}Gain(D_{1})+\frac{|D_2|}{|D|}Gain(D_{2})$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

分類迴歸樹(CART)的快速理解

迴歸樹

分類樹

分類迴歸樹(CART)的快速理解

熵，哈夫曼編碼，二進制

關於歸一化與標準化

主成分分析（PCA）之去相關思路

從線性方程組求解到最小二乘問題

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結