BAT面試題3：請問GBDT和XGBoost的區別是什麼？

接下來，每天推送一道BAT的面試題，一般問到的這些知識點都是很重要的，所以知道的就再複習一下，不知道的希望這篇可以幫助到你。日積月累，你會在不知不覺中就步入機器學習的大門，並且越走越遠。同時，還能助你順利拿到OFFER.

【問】機器學習算法中GBDT和XGBOOST的區別有哪些？

【答】 1 傳統GBDT以CART作爲基分類器，xgboost還支持線性分類器，這個時候xgboost相當於帶L1和L2正則化項的邏輯斯蒂迴歸（分類問題）或者線性迴歸（迴歸問題）。

2 傳統GBDT在優化時只用到一階導數信息，xgboost則對代價函數進行了二階泰勒展開，同時用到了一階和二階導數。順便提一下，xgboost工具支持自定義代價函數，只要函數可一階和二階求導。

3 xgboost在代價函數里加入了正則項，用於控制模型的複雜度。正則項裏包含了樹的葉子節點個數、每個葉子節點上輸出的score的L2模的平方和。從Bias-variance tradeoff角度來講，正則項降低了模型的variance，使學習出來的模型更加簡單，防止過擬合，這也是xgboost優於傳統GBDT的一個特性。(關於這個點，接下來詳細解釋)

4 Shrinkage（縮減），相當於學習速率（xgboost中的eta）。xgboost在進行完一次迭代後，會將葉子節點的權重乘上該係數，主要是爲了削弱每棵樹的影響，讓後面有更大的學習空間。實際應用中，一般把eta設置得小一點，然後迭代次數設置得大一點。（補充：傳統GBDT的實現也有學習速率）

5 列抽樣（column subsampling）即特徵抽樣。xgboost借鑑了隨機森林的做法，支持列抽樣，不僅能降低過擬合，還能減少計算，這也是xgboost異於傳統gbdt的一個特性。

6 對缺失值的處理。對於特徵的值有缺失的樣本，xgboost可以自動學習出它的分裂方向。

7 xgboost工具支持並行。boosting不是一種串行的結構嗎?怎麼並行的？注意xgboost的並行不是tree粒度的並行，xgboost也是一次迭代完才能進行下一次迭代的（第t次迭代的代價函數裏包含了前面t-1次迭代的預測值）。xgboost的並行是在特徵粒度上的。

我們知道，決策樹的學習最耗時的一個步驟就是對特徵的值進行排序（因爲要確定最佳分割點），xgboost在訓練之前，預先對數據進行了排序，然後保存爲block結構，後面的迭代中重複地使用這個結構，大大減小計算量。這個block結構也使得並行成爲了可能，在進行節點的分裂時，需要計算每個特徵的增益，最終選增益最大的那個特徵去做分裂，那麼各個特徵的增益計算就可以開多線程進行。

可並行的近似直方圖算法。樹節點在進行分裂時，我們需要計算每個特徵的每個分割點對應的增益，即用貪心法枚舉所有可能的分割點。當數據無法一次載入內存或者在分佈式情況下，貪心算法效率就會變得很低，所以xgboost還提出了一種可並行的近似直方圖算法，用於高效地生成候選的分割點。

補充

xgboost/gbdt在調參時爲什麼樹的深度很少就能達到很高的精度？用xgboost/gbdt在在調參的時候把樹的最大深度調成6就有很高的精度了。但是用DecisionTree/RandomForest的時候需要把樹的深度調到15或更高。用RandomForest所需要的樹的深度和DecisionTree一樣我能理解，因爲它是用bagging的方法把DecisionTree組合在一起，相當於做了多次DecisionTree一樣。但是xgboost/gbdt僅僅用梯度上升法就能用6個節點的深度達到很高的預測精度，使我驚訝到懷疑它是黑科技了。請問下xgboost/gbdt是怎麼做到的？它的節點和一般的DecisionTree不同嗎？

這是一個非常好的問題，題主對各算法的學習非常細緻透徹，問的問題也關係到這兩個算法的本質。這個問題其實並不是一個很簡單的問題，我嘗試用我淺薄的機器學習知識對這個問題進行回答。一句話的解釋，來自周志華老師的機器學習教科書（機器學習-周志華）：Boosting主要關注降低偏差，因此Boosting能基於泛化性能相當弱的學習器構建出很強的集成；Bagging主要關注降低方差，因此它在不剪枝的決策樹、神經網絡等學習器上效用更爲明顯。

隨機森林(random forest)和GBDT都是屬於集成學習（ensemble learning)的範疇。集成學習下有兩個重要的策略Bagging和Boosting。

Bagging算法是這樣做的：每個分類器都隨機從原樣本中做有放回的採樣，然後分別在這些採樣後的樣本上訓練分類器，然後再把這些分類器組合起來。簡單的多數投票一般就可以。其代表算法是隨機森林。Boosting的意思是這樣，他通過迭代地訓練一系列的分類器，每個分類器採用的樣本分佈都和上一輪的學習結果有關。其代表算法是AdaBoost, GBDT。

其實就機器學習算法來說，其泛化誤差可以分解爲兩部分，偏差（bias)和方差(variance)。這個可由下圖的式子導出（這裏用到了概率論公式D(X)=E(X^2)-[E(X)]^2）。偏差指的是算法的期望預測與真實預測之間的偏差程度，反應了模型本身的擬合能力；方差度量了同等大小的訓練集的變動導致學習性能的變化，刻畫了數據擾動所導致的影響。這個有點兒繞，不過你一定知道過擬合。

如下圖所示，當模型越複雜時，擬合的程度就越高，模型的訓練偏差就越小。但此時如果換一組數據可能模型的變化就會很大，即模型的方差很大。所以模型過於複雜的時候會導致過擬合。

此問題的完整答案主要參考，感謝知乎上一衆大牛的準確總結： https://xijunlee.github.io/2017/06/03/%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0%E6%80%BB%E7%BB%93/

BAT面試題3：請問GBDT和XGBoost的區別是什麼？

BAT面試14: 談談 docker 在深度學習任務中的應用

BAT面試題13：請簡要說說一個完整機器學習項目的流程

均分紙牌（經典貪心）

Git 分支的原理和應用實戰，看這篇就夠了！

BAT面試題12：機器學習爲何要經常對數據做歸一化？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結