隨機森林和GBDT的區別

隨機森林和GBDT的區別

  1. 隨機森林採用的bagging思想,而GBDT採用的boosting思想。這兩種方法都是Bootstrap思想的應用,Bootstrap是一種有放回的抽樣方法思想。雖然都是有放回的抽樣,但二者的區別在於:Bagging採用有放回的均勻取樣,而Boosting根據錯誤率來取樣(Boosting初始化時對每一個訓練樣例賦相等的權重1/n,然後用該算法對訓練集訓練t輪,每次訓練後,對訓練失敗的樣例賦以較大的權重),因此Boosting的分類精度要優於Bagging。Bagging的訓練集的選擇是隨機的,各訓練集之間相互獨立,弱分類器可並行,而Boosting的訓練集的選擇與前一輪的學習結果有關,是串行的。
  2. 組成隨機森林的樹可以是分類樹,也可以是迴歸樹;而GBDT只能由迴歸樹組成
  3. 組成隨機森林的樹可以並行生成;而GBDT只能是串行生成。
  4. 對於最終的輸出結果而言,隨機森林採用多數投票等;而GBDT則是將所有結果累加起來,或者加權累加起來。
  5. 隨機森林對異常值不敏感;GBDT對異常值非常敏感。
  6. 隨機森林對訓練集一視同仁;GBDT是基於權值的弱分類器的集成。
  7. 隨機森林是通過減少模型方差提高性能;GBDT是通過減少模型偏差提高性能。

 

隨機森林

優點:

  1. 實現簡單,訓練速度快,泛化能力強,可以並行實現,因爲訓練時樹與樹之間是相互獨立的;
  2. 相比單一決策樹,能學習到特徵之間的相互影響,且不容易過擬合;
  3. 能處理高維數據(即特徵很多),並且不用做特徵選擇,因爲特徵子集是隨機選取的;
  4. 對於不平衡的數據集,可以平衡誤差;
  5. 相比SVM,不是很怕特徵缺失,因爲待選特徵也是隨機選取;
  6. 訓練完成後可以給出哪些特徵比較重要。

缺點:

  1. 在噪聲過大的分類和迴歸問題還是容易過擬合;
  2. 相比於單一決策樹,它的隨機性讓我們難以對模型進行解釋。

 

GBDT

優點:適用面廣,離散或連續的數據都可以處理,幾乎可用於所有迴歸問題(線性/非線性),亦可用於二分類問題(設定閾值,大於閾值爲正例,反之爲負例)

缺點:由於弱分類器的串行依賴,導致難以並行訓練數據。

 

 

--------------------- 
作者:login_sonata 
來源:CSDN 
原文:https://blog.csdn.net/login_sonata/article/details/73929426 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章