統計學習方法——CART, Bagging, Random Forest, Boosting

原創

2020-02-22 06:49

統計學習方法——CART, Bagging, Random Forest, Boosting

本文轉自：http://blog.csdn.net/abcjennifer/article/details/8164315

本文從統計學角度講解了CART（Classification And Regression Tree）, Bagging(bootstrap aggregation), Random Forest Boosting四種分類器的特點與分類方法，參考材料爲密歇根大學Ji Zhu的pdf與組會上王博的講解。

CART（Classification And Regression Tree）

Breiman, Friedman, Olshen & Stone (1984), Quinlan (1993)

思想：遞歸地將輸入空間分割成矩形

優點：可以進行變量選擇，可以克服missing data，可以處理混合預測

缺點：不穩定

example:

對於下面的數據，希望分割成紅色和綠色兩個類，原本數據生成是這樣的：

Red class: x1^2+x2^2>=4.6

Green class: otherwise

經過不斷分割可以得到最後的分類樹：

那麼怎麼分割纔是最好的呢？即怎樣將輸入空間分割成矩形是最佳策略呢？這裏一般採用三中評價標準策略：

分裂時，找到使不純度下降最快的分裂變量和分裂點。

從結果可以看出CART可以通過變量選擇迭代地建立一棵分類樹，使得每次分類平面能最好地將剩餘數據分爲兩類。
classification tree非常簡單，但是經常會有noisy classifiers. 於是引入ensemble classifiers: bagging, random forest, 和boosting。

一般的， Boosting > Bagging > Classification tree(single tree)

Bagging (Breiman1996): 也稱bootstrap aggregation

Bagging的策略：

- 從樣本集中用Bootstrap採樣選出n個樣本

- 在所有屬性上，對這n個樣本建立分類器（CART or SVM or ...）

- 重複以上兩步m次，i.e.build m個分類器（CART or SVM or ...）

- 將數據放在這m個分類器上跑，最後vote看到底分到哪一類

Fit many large trees to bootstrap resampled versions of the training data, and classify by majority vote.

下圖是Bagging的選擇策略，每次從N個數據中採樣n次得到n個數據的一個bag，總共選擇B次得到B個bags，也就是B個bootstrap samples.

Random forest(Breiman1999):

隨機森林在bagging基礎上做了修改。

- 從樣本集中用Bootstrap採樣選出n個樣本，預建立CART

- 在樹的每個節點上，從所有屬性中隨機選擇k個屬性，選擇出一個最佳分割屬性作爲節點

- 重複以上兩步m次，i.e.build m棵CART

- 這m個CART形成Random Forest

隨機森林可以既可以處理屬性爲離散值的量，比如ID3算法，也可以處理屬性爲連續值的量，比如C4.5算法。

這裏的random就是指

1. Bootstrap中的隨機選擇子樣本

2. Random subspace的算法從屬性集中隨機選擇k個屬性，每個樹節點分裂時，從這隨機的k個屬性，選擇最優的

結果證明有時候Random Forest比Bagging還要好。今天微軟的Kinect裏面就採用了Random Forest，相關論文Real-time Human Pose Recognition in Parts from Single Depth Images是CVPR2011的best paper。