決策樹系列6：XGBoost, 機器學習的大殺器

引言

XGBoost 自誕生以來，就屢次在國際機器學習大賽中摘取桂冠，風頭隱隱有超過深度學習之勢，堪稱機器學習的"大殺器"。今天我們就來揭開 XGBoost 的神祕面紗，瞧瞧它的廬山真面目。

一、XGBoost 簡介

XGBoost 跟上一篇的 AdaBoost 都屬於集成學習的範疇，即利用多個弱學習器組成最終的強學習器。

說到 XGBoost 不得不提 GBDT(Gradient Boosting Decision Tree), XGBoost 是 GBDT 思想的一種實現，把速度和性能提升到了極致，所以XGBoost 的 “X” 是 “Extreme” 的意思。

二、XGBoost 的基本思路

回想決策樹中，我們用不同的屬性劃分分支，最終每個樣本都會到達葉子節點，所以葉子節點代表了樣本的分類結果。

我們知道決策樹不僅可以解決分類問題(葉子節點代表一個類別), 也可以解決迴歸問題(葉子節點代表樣本的分值)，但總體思路是一樣的。

舉個例子，比如我們要預測某個人是否喜歡玩遊戲，可以建立如下這樣一棵決策樹。

這是一個迴歸問題，每個樣本的分值等於其所在葉子節點的分值，分值正負表示是否喜歡玩遊戲，分值大小表示喜歡玩遊戲的程度。

上圖中我們用 “年齡” 屬性建立了決策樹，得出了 “age < 20” 的人喜歡玩遊戲程度爲 “+2”, “age >= 20” 的人喜歡玩遊戲的程度爲 “-1”。

但是隻用一個屬性建立的決策樹太片面了，所以我們又用 “是否每天用電腦” 建立了第二棵決策樹。

最後，我們把樣本在兩棵決策樹中分值加起來表示樣本的最後分值，例如圖中小朋友的分值爲 2 + 0.9 = 2.9，老爺爺的分值爲 -1 + (-0.9) = -1.9

總結一下，如果我們建立 K 棵樹，每個樣本 $x_i$ 的預測分值 $\hat{y}_i$ 爲該樣本在每棵決策樹葉子節點的分值之和。

$\hat{y}_i = \sum_{t=1}^{K} f_t(x_i)$
其中 $f_t(x_i)$ 表示樣本 $x_i$ 第 t 棵樹中所在葉子的分值。

好了，現在思考一下：每次添加一棵新樹時，如何評判新添加的樹對總體而言是好的還是不好的？

評判標準就是：樣本 $x_i$ 的預測值 $\hat{y}_i$ 與樣本真實值 $y_i$ 之間的差異是否越來越小了。

舉個例子：在貸款額度評估模型中，樣本小王的真實貸款額度爲30萬, 我們看看什麼是好的建樹過程。

第一棵樹：小王所在葉子分值爲 20萬, 此時差異 $|\hat{y}^{(1)} - y| = |f_1(x) - y| = 10萬$
第二棵樹：小王所在葉子分值爲 15萬, 此時差異 $|\hat{y}^{(2)} - y| = |f_1(x) + f_2(x) - y| = 5萬$
第三棵樹：小王所在葉子分值爲 -3萬, 此時差異 $|\hat{y}^{(3)} - y| = |f_1(x) + f_2(x) + f_3(x) - y| = 2萬$

可以看出，每添加一棵樹，樣本分值的和 $\hat y^{(t)} = \sum_{t=1}^K f_t(x)$ 與真實值 $y$ 之間的差異都在變小。換言之，每棵新樹分值 $f_t(x)$ 的目標不是 $y$ 本身, 而是爲了彌補之前剩下的差異 $|\hat y^{(t-1)} - y|$ 。

可以看到，預測值 $\hat y$ 等於所有決策樹的分值總和，每棵新樹 t 都在上一次分值之和 $\hat y^{(t-1)}$ 的基礎上加上自己的分值 $f_t$ ，構成新的預測值。

書歸正傳，XGBoost 就是用的這種思路，每棵新樹都在逐步彌補預測值與真實值之間的差異。

現在目標清楚了，問題在於 XGBoost 是如何添加新樹使得新樹可以逐步彌補樣本差異的呢？

三、XGBoost 的原理探究

3.1 提出目標函數

現在再總結一下剛纔的過程：

最初沒有樹，預測值 $\hat y^{(0)}$ 爲 0
每添加一棵樹 $f_t$ , 預測值 $\hat y_i^{(t)}$ 爲之前的預測值 $\hat y_i^{(t-1)}$ 與新樹分值 $f_t(x_i)$ 之和

這是一個遞歸加和的過程, 希望大家能夠理解。

有了預測值 $\hat y$ ，想求 $f_t$ ，需要給出我們的目標函數。

一方面，我們想讓預測值 $\hat y$ 和真實值 $y$ 之間的差異 loss 最小，這裏不同算法評估差異的方式不同。比如：

線性迴歸： $loss(y_i,\hat y_i) = (y_i - \hat y_i)^2$
邏輯迴歸： $loss(y_i,\hat y_i) = y_i\,ln(1+e^{- \hat y_i}) + (1 - y_i)\,ln(1+e^{\hat y_i})$

其他算法的 loss 計算方式可能又有不同，真正用哪種方式應該根據解決的具體問題而定，這裏統稱爲 $l(y_i,\hat y_i)$ 。

另一方面，爲了防止過擬合和決策樹過於複雜，我們需要爲每棵樹添加懲罰項 $\Omega$ ，常用的懲罰項有以下幾種：

L1 正則化： $\Omega = \lambda\,||w||_1 = \lambda\,\sum_{i=1}^n |w_i|$
L2 正則化： $\Omega = \lambda\,||w||_2 = \frac 12 \,\lambda\,\sum_{i=1}^n w_i^2$
懲罰葉子節點個數 T: $\Omega = \gamma\,T$

其中

$\lambda$ 和 $\gamma$ 爲用戶可以調節的參數
w 爲權重，這裏就是葉子的分值
T 表示每棵決策樹的葉子節點個數，葉子個數越多，決策樹越複雜，所以需要懲罰

在 XGBoost 中我們同時使用 L2正則化和葉子節點數作爲懲罰項 $\Omega$ :
$\Omega = \gamma\,T + \lambda\,||w||_2$

所以我們的目標函數 Obj 等於每個樣本的 loss 之和再加上每棵樹的懲罰項之和。
$Obj = \sum_{i=1}^n l(y_i,\hat y_i) + \sum_{t=1}^K \Omega(f_t)$

因爲在計算第 t 棵樹時，前 t-1 棵樹已經是已知常量，所以前 t-1 棵樹的 $\Omega$ 也已經是常量，因爲常量對目標函數求梯度是沒有作用的, 所以這一部分可以統一表示爲 constant，此時目標函數變爲：

$Obj = \sum_{i=1}^n l(y_i,\hat y_i) + \Omega(f_t) + constant$

接下來就是如何求解目標函數了。

3.2 求解目標函數

3.2.1 關於 $f_t$

對於第 t 棵樹，函數 $f_t(x_i)$ 表示樣本 $x_i$ 的分值，而樣本的分值等於其所在葉子節點的分值，所以 $f_t$ 可以表示爲每個葉子節點分值組成的向量，這裏葉子的分值又叫做權重，用 $w_j$ 表示。如果有 T 個葉子節點, 則 $f_t$ :
$f_t = \{w_1, w_2, ..., w_T\}$
對於 $f_t(x_i)$ ，如果 $x_i$ 落到了第 3 個葉子節點上，則 $f_t(x_i) = w_3$

3.2.2 loss 部分泰勒展開

對於第 t 棵樹，目標函數：
$Obj^{(t)} = \sum_{i=1}^n l(y_i,\hat y_i^{(t)}) + \Omega(f_t) + constant$
注意到 $\hat y_i^{(t)} = \hat y_i^{(t-1)} + f_t(x_i)$ , 所以
$l(y_i,\hat y_i^{(t)}) = l(y_i,\;\hat y_i^{(t-1)} + f_t(x_i))$

注意這裏 $y_i$ 是已知的常量，變量爲 $\hat y_i^{(t-1)} + f_t(x_i)$

我們發現新樹 $f_t$ 相當於在原來 t-1 棵樹的基礎上加了一個增量。

而對於此類加增量的問題 $f(x + \Delta x)$ ，可以用泰勒展開來求解。

泰勒公式二次展開：
$f(x + \Delta x) \approx f(x) + f'(x)\Delta x + \frac 12 f''(x)\Delta x$
把 $l(y_i,\;\hat y_i^{(t-1)})$ 看成 $f(x)$ , 把 $\hat y_i^{(t-1)}$ 看成 $x$ , 把 $f_t(x_i)$ 看成 $\Delta x$ ，同時用 $g$ 表示一階導數 $f'(x)$ , 用 $h$ 表示二階導數 $f''(x)$ ，目標函數變爲：
$Obj^{(t)} = \sum_{i=1}^n [l(y_i,\hat y_i^{(t-1)}) + g_if_t(x_i) + \frac 12 h_i f_t^2(x_i)] + \Omega(f_t) + constant$

又注意到目標函數中 $l(y_i,\hat y_i^{(t-1)})$ 在算第 t 棵樹時也是一個常量，可以歸到 constant 中，所以目標函數變成

$Obj^{(t)} = \sum_{i=1}^n [g_if_t(x_i) + \frac 12 h_i f_t^2(x_i)] + \Omega(f_t) + constant$

導數求解舉例

以線性迴歸爲例，loss 爲，
$loss(y_i,\hat y_i^{(t-1)}) = (y_i - \hat y_i^{(t-1)})^2$

則一階導數 $g_i = 2(y_i - \hat y_i^{(t-1)})$
二階導數 $h_i = 2$
對於其他loss, 同理可求 $g_i$ 和 $h_i$

3.2.3 $\Omega$ 部分化簡展開

目標函數的懲罰項部分
$\begin{aligned} \Omega(f_t) =& \gamma\,T + \lambda\,||w_j||_2 \\ =& \gamma\,T + \frac 12 \lambda\,\sum_{i=1}^n w_j^2 \end{aligned}$

對於圖中的決策樹，懲罰項爲：
$\gamma\,3 + \frac 12 \lambda\,(4 + 0.01 + 1)$

3.2.4 從按樣本統計到按葉子統計

因爲每個樣本的權重就是所在葉子節點的權重 w，那麼所有樣本的權重之和就等於每個葉子節點的權重乘以葉子所含樣本的個數然後再求和。

$\sum_{i=1}^n w_i = \sum_{j=1}^T w_j * d_j$

其中 $d_j$ 表示第 j 個葉子節點所含的樣本數。

同理, 樣本的一階導數 $g_i$ 和二階導數 $h_i$ 也只與其所在的葉子節點有關，所以有
$\sum_{i=1}^n g_i = \sum_{j=1}^T g_j * d_j = G_j$
$\sum_{i=1}^n h_i = \sum_{j=1}^T h_j * d_j = H_j$

這裏分別用 $G_j$ 和 $H_j$ 表示每個葉子節點上樣本導數的和。

代入到目標函數：
$\begin{aligned} Obj^{(t)} &= \sum_{i=1}^n [g_if_t(x_i) + \frac 12 h_i f_t^2(x_i)] + \Omega(f_t) + constant \\ &= \sum_{i=1}^n [g_if_t(x_i) + \frac 12 h_i f_t^2(x_i)] + \gamma\,T + \frac 12 \lambda\,\sum_{j=1}^T w_j^2 + constant\\ &= \sum_{j=1}^T [G_j \, w_j + \frac 12 H_j \, w_j^2 + \frac 12 \lambda\, w_j^2] + \gamma\,T + constant\\ &= \sum_{j=1}^T [G_j \, w_j + \frac 12 (H_j + \lambda) \, w_j^2 ] + \gamma\,T + constant\\ \end{aligned}$

這裏 $f_t(x_i) = w_j$ 因爲樣本的分值就是其所在的葉子節點的權重。

注意到常數項對目標函數求梯度沒有作用，可以捨棄，最終的目標函數爲：
$Obj^{(t)} = \sum_{j=1}^T [G_j \, w_j + \frac 12 (H_j + \lambda) \, w_j^2 ] + \gamma\,T$

3.2.5 目標函數求解

目標函數中只有 $w_j$ 是變量，對目標函數求梯度計算最小值，可以得到最優的 $w_j$
$w_j = - \frac{G_j}{H_j+\lambda}$

有了 $w_j$ , 就有了 $f_t(x_i)$ ，因爲
$f_t = \{w_1, w_2, ..., w_T\}$
此時的最優目標函數爲
$Obj^{(t)} = -\frac 12 \sum_{j=1}^T \frac{G_j^2}{H_j+\lambda} + \gamma \, T$

下圖例子中，5 個樣本分到了 3 個葉子節點上，計算出的目標函數越小越好。

3.3 樹的內部如何分支

至此，我們第 t 棵爲每個葉子節點求出了最佳的 $w_j$ ，這有一個前提，在計算的過程中我們假設了第 t 棵樹的葉子節點數爲 T, 那麼 T 如何確定，也就是第 t 棵樹如何通過層層分支建立起來，以獲得最優的葉子節點個數 T。

這裏我們用了貪婪算法。

回想我們最初建立決策樹時用熵的變化計算分支前後的信息增益來決定如何分支，這裏我們也用類似的方式。

最優目標函數
$Obj^{(t)} = -\frac 12 \sum_{j=1}^T \frac{G_j^2}{H_j+\lambda} + \gamma \, T$

我們將分支前後最優目標函數的變化叫做增益。

對每一個葉節點進行分支，左分支最優目標函數：
$Obj_L = -\frac 12 \frac{G_{L}^2}{H_{L}+\lambda} + \gamma \, T_L$
右分支最優目標函數：
$Obj_R = -\frac 12 \frac{G_{R}^2}{H_{R}+\lambda} + \gamma \, T_R$

分支之前的葉子節點最優目標函數應該爲：
$\begin{aligned} Obj &= -\frac 12 \frac{G^2}{H+\lambda} + \gamma \, T \\ &= -\frac 12 \frac{(G_L + G_R)^2}{(H_L + H_R)+\lambda} + \gamma \, (T_L + T_R -1) \\ \end{aligned}$

用分支前的 $Obj$ 減去分支後的 $Obj_L + Obj_R$ 作爲增益 Gain，如果 Gain > 0, 說明分支後最優目標函數減小了，那麼就應該分支。

$\begin{aligned} Gain &= Obj - (Obj_L + Obj_R) \\ &= \frac 12 [\frac{G_{L}^2}{H_{L}+\lambda} + \frac{G_{R}^2}{H_{R}+\lambda} - \frac{(G_L + G_R)^2}{(H_L + H_R)+\lambda}] - \gamma \end{aligned}$

現在有了要不要分支，那如果需要分的話從哪裏分？比如屬性有 n 個值，那麼應該從哪裏分呢?

首先需要將 n 個屬性排序，然後嘗試從任意兩個相鄰屬性之間分支，有 n-1 種可能，我們依次計算這 n-1 種可能的每一種可能的 Gain, 最後從 Gain 最大處分支。

比如下圖中我們對"年齡"屬性進行分支，發現從 a 分支 Gain 最大，那就從 a 處分支。

四、XGBoost 一些優化點

快速停止

如果連續幾次的 Gain 都小於等於 0，說明分支無益，可以提前停止。

步長收縮

通常不直接使用 $\hat y^{(t)} = \hat y^{(t-1)} + f_t(x_i)$ ，而是採用
$\hat y^{(t)} = \hat y^{(t-1)} + \epsilon \, f_t(x_i)$ , 其中 $\epsilon$ 叫做步長因子或收縮因子，通常爲 0.1，這樣做是爲了不在每一步試圖全局最優，而是給未來留下優化的空間，避免過擬合。

後記

XGBoost 就聊到這裏了，作爲大殺器的存在看起來有些複雜，我盡力用通俗的語言來描述、把所有過程推導細節都給出來，希望大家可以喫透，其實理解了思路，推導起來就簡單多了。

XGBoost 是《決策樹系列》的最後一篇文章，希望這個系列對大家有所幫助，哪怕只有一丟丟也很值得我爲此開心。

好了，廢話不多說了，從下一次開始我們將聊聊《神經網絡系列》，從邏輯迴歸(LR)、深度神經網絡(DNN)到卷積神經網絡(CNN)，以及每種網絡的正向傳播和反向傳播的推導，希望到時候還能和您一起，在大數據茶館邊喝茶邊聊天~

歡迎關注本人公衆號《大數據茶館》，用大白話暢聊大數據。

來的都是客，歡迎您常來坐坐~

決策樹系列6：XGBoost, 機器學習的大殺器

引言

一、XGBoost 簡介

二、XGBoost 的基本思路