隨機森林和GBDT的區別

原創

2019-03-29 15:10

隨機森林採用的bagging思想，而GBDT採用的boosting思想。這兩種方法都是Bootstrap思想的應用，Bootstrap是一種有放回的抽樣方法思想。雖然都是有放回的抽樣，但二者的區別在於：Bagging採用有放回的均勻取樣，而Boosting根據錯誤率來取樣（Boosting初始化時對每一個訓練樣例賦相等的權重1／n，然後用該算法對訓練集訓練t輪，每次訓練後，對訓練失敗的樣例賦以較大的權重），因此Boosting的分類精度要優於Bagging。Bagging的訓練集的選擇是隨機的，各訓練集之間相互獨立，弱分類器可並行，而Boosting的訓練集的選擇與前一輪的學習結果有關，是串行的。
組成隨機森林的樹可以是分類樹，也可以是迴歸樹；而GBDT只能由迴歸樹組成。
組成隨機森林的樹可以並行生成；而GBDT只能是串行生成。
對於最終的輸出結果而言，隨機森林採用多數投票等；而GBDT則是將所有結果累加起來，或者加權累加起來。
隨機森林對異常值不敏感；GBDT對異常值非常敏感。
隨機森林對訓練集一視同仁；GBDT是基於權值的弱分類器的集成。
隨機森林是通過減少模型方差提高性能；GBDT是通過減少模型偏差提高性能。

隨機森林

優點：

缺點：

優點：適用面廣，離散或連續的數據都可以處理，幾乎可用於所有迴歸問題（線性/非線性），亦可用於二分類問題（設定閾值，大於閾值爲正例，反之爲負例）

缺點：由於弱分類器的串行依賴，導致難以並行訓練數據。

---------------------
作者：login_sonata
來源：CSDN
原文：https://blog.csdn.net/login_sonata/article/details/73929426

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.