决策树系列6：XGBoost, 机器学习的大杀器

引言

XGBoost 自诞生以来，就屡次在国际机器学习大赛中摘取桂冠，风头隐隐有超过深度学习之势，堪称机器学习的"大杀器"。今天我们就来揭开 XGBoost 的神秘面纱，瞧瞧它的庐山真面目。

一、XGBoost 简介

XGBoost 跟上一篇的 AdaBoost 都属于集成学习的范畴，即利用多个弱学习器组成最终的强学习器。

说到 XGBoost 不得不提 GBDT(Gradient Boosting Decision Tree), XGBoost 是 GBDT 思想的一种实现，把速度和性能提升到了极致，所以XGBoost 的 “X” 是 “Extreme” 的意思。

二、XGBoost 的基本思路

回想决策树中，我们用不同的属性划分分支，最终每个样本都会到达叶子节点，所以叶子节点代表了样本的分类结果。

我们知道决策树不仅可以解决分类问题(叶子节点代表一个类别), 也可以解决回归问题(叶子节点代表样本的分值)，但总体思路是一样的。

举个例子，比如我们要预测某个人是否喜欢玩游戏，可以建立如下这样一棵决策树。

这是一个回归问题，每个样本的分值等于其所在叶子节点的分值，分值正负表示是否喜欢玩游戏，分值大小表示喜欢玩游戏的程度。

上图中我们用 “年龄” 属性建立了决策树，得出了 “age < 20” 的人喜欢玩游戏程度为 “+2”, “age >= 20” 的人喜欢玩游戏的程度为 “-1”。

但是只用一个属性建立的决策树太片面了，所以我们又用 “是否每天用电脑” 建立了第二棵决策树。

最后，我们把样本在两棵决策树中分值加起来表示样本的最后分值，例如图中小朋友的分值为 2 + 0.9 = 2.9，老爷爷的分值为 -1 + (-0.9) = -1.9

总结一下，如果我们建立 K 棵树，每个样本 $x_i$ 的预测分值 $\hat{y}_i$ 为该样本在每棵决策树叶子节点的分值之和。

$\hat{y}_i = \sum_{t=1}^{K} f_t(x_i)$
其中 $f_t(x_i)$ 表示样本 $x_i$ 第 t 棵树中所在叶子的分值。

好了，现在思考一下：每次添加一棵新树时，如何评判新添加的树对总体而言是好的还是不好的？

评判标准就是：样本 $x_i$ 的预测值 $\hat{y}_i$ 与样本真实值 $y_i$ 之间的差异是否越来越小了。

举个例子：在贷款额度评估模型中，样本小王的真实贷款额度为30万, 我们看看什么是好的建树过程。

第一棵树：小王所在叶子分值为 20万, 此时差异 $|\hat{y}^{(1)} - y| = |f_1(x) - y| = 10万$
第二棵树：小王所在叶子分值为 15万, 此时差异 $|\hat{y}^{(2)} - y| = |f_1(x) + f_2(x) - y| = 5万$
第三棵树：小王所在叶子分值为 -3万, 此时差异 $|\hat{y}^{(3)} - y| = |f_1(x) + f_2(x) + f_3(x) - y| = 2万$

可以看出，每添加一棵树，样本分值的和 $\hat y^{(t)} = \sum_{t=1}^K f_t(x)$ 与真实值 $y$ 之间的差异都在变小。换言之，每棵新树分值 $f_t(x)$ 的目标不是 $y$ 本身, 而是为了弥补之前剩下的差异 $|\hat y^{(t-1)} - y|$ 。

可以看到，预测值 $\hat y$ 等于所有决策树的分值总和，每棵新树 t 都在上一次分值之和 $\hat y^{(t-1)}$ 的基础上加上自己的分值 $f_t$ ，构成新的预测值。

书归正传，XGBoost 就是用的这种思路，每棵新树都在逐步弥补预测值与真实值之间的差异。

现在目标清楚了，问题在于 XGBoost 是如何添加新树使得新树可以逐步弥补样本差异的呢？

三、XGBoost 的原理探究

3.1 提出目标函数

现在再总结一下刚才的过程：

最初没有树，预测值 $\hat y^{(0)}$ 为 0
每添加一棵树 $f_t$ , 预测值 $\hat y_i^{(t)}$ 为之前的预测值 $\hat y_i^{(t-1)}$ 与新树分值 $f_t(x_i)$ 之和

这是一个递归加和的过程, 希望大家能够理解。

有了预测值 $\hat y$ ，想求 $f_t$ ，需要给出我们的目标函数。

一方面，我们想让预测值 $\hat y$ 和真实值 $y$ 之间的差异 loss 最小，这里不同算法评估差异的方式不同。比如：

线性回归： $loss(y_i,\hat y_i) = (y_i - \hat y_i)^2$
逻辑回归： $loss(y_i,\hat y_i) = y_i\,ln(1+e^{- \hat y_i}) + (1 - y_i)\,ln(1+e^{\hat y_i})$

其他算法的 loss 计算方式可能又有不同，真正用哪种方式应该根据解决的具体问题而定，这里统称为 $l(y_i,\hat y_i)$ 。

另一方面，为了防止过拟合和决策树过于复杂，我们需要为每棵树添加惩罚项 $\Omega$ ，常用的惩罚项有以下几种：

L1 正则化： $\Omega = \lambda\,||w||_1 = \lambda\,\sum_{i=1}^n |w_i|$
L2 正则化： $\Omega = \lambda\,||w||_2 = \frac 12 \,\lambda\,\sum_{i=1}^n w_i^2$
惩罚叶子节点个数 T: $\Omega = \gamma\,T$

其中

$\lambda$ 和 $\gamma$ 为用户可以调节的参数
w 为权重，这里就是叶子的分值
T 表示每棵决策树的叶子节点个数，叶子个数越多，决策树越复杂，所以需要惩罚

在 XGBoost 中我们同时使用 L2正则化和叶子节点数作为惩罚项 $\Omega$ :
$\Omega = \gamma\,T + \lambda\,||w||_2$

所以我们的目标函数 Obj 等于每个样本的 loss 之和再加上每棵树的惩罚项之和。
$Obj = \sum_{i=1}^n l(y_i,\hat y_i) + \sum_{t=1}^K \Omega(f_t)$

因为在计算第 t 棵树时，前 t-1 棵树已经是已知常量，所以前 t-1 棵树的 $\Omega$ 也已经是常量，因为常量对目标函数求梯度是没有作用的, 所以这一部分可以统一表示为 constant，此时目标函数变为：

$Obj = \sum_{i=1}^n l(y_i,\hat y_i) + \Omega(f_t) + constant$

接下来就是如何求解目标函数了。

3.2 求解目标函数

3.2.1 关于 $f_t$

对于第 t 棵树，函数 $f_t(x_i)$ 表示样本 $x_i$ 的分值，而样本的分值等于其所在叶子节点的分值，所以 $f_t$ 可以表示为每个叶子节点分值组成的向量，这里叶子的分值又叫做权重，用 $w_j$ 表示。如果有 T 个叶子节点, 则 $f_t$ :
$f_t = \{w_1, w_2, ..., w_T\}$
对于 $f_t(x_i)$ ，如果 $x_i$ 落到了第 3 个叶子节点上，则 $f_t(x_i) = w_3$

3.2.2 loss 部分泰勒展开

对于第 t 棵树，目标函数：
$Obj^{(t)} = \sum_{i=1}^n l(y_i,\hat y_i^{(t)}) + \Omega(f_t) + constant$
注意到 $\hat y_i^{(t)} = \hat y_i^{(t-1)} + f_t(x_i)$ , 所以
$l(y_i,\hat y_i^{(t)}) = l(y_i,\;\hat y_i^{(t-1)} + f_t(x_i))$

注意这里 $y_i$ 是已知的常量，变量为 $\hat y_i^{(t-1)} + f_t(x_i)$

我们发现新树 $f_t$ 相当于在原来 t-1 棵树的基础上加了一个增量。

而对于此类加增量的问题 $f(x + \Delta x)$ ，可以用泰勒展开来求解。

泰勒公式二次展开：
$f(x + \Delta x) \approx f(x) + f'(x)\Delta x + \frac 12 f''(x)\Delta x$
把 $l(y_i,\;\hat y_i^{(t-1)})$ 看成 $f(x)$ , 把 $\hat y_i^{(t-1)}$ 看成 $x$ , 把 $f_t(x_i)$ 看成 $\Delta x$ ，同时用 $g$ 表示一阶导数 $f'(x)$ , 用 $h$ 表示二阶导数 $f''(x)$ ，目标函数变为：
$Obj^{(t)} = \sum_{i=1}^n [l(y_i,\hat y_i^{(t-1)}) + g_if_t(x_i) + \frac 12 h_i f_t^2(x_i)] + \Omega(f_t) + constant$

又注意到目标函数中 $l(y_i,\hat y_i^{(t-1)})$ 在算第 t 棵树时也是一个常量，可以归到 constant 中，所以目标函数变成

$Obj^{(t)} = \sum_{i=1}^n [g_if_t(x_i) + \frac 12 h_i f_t^2(x_i)] + \Omega(f_t) + constant$

导数求解举例

以线性回归为例，loss 为，
$loss(y_i,\hat y_i^{(t-1)}) = (y_i - \hat y_i^{(t-1)})^2$

则一阶导数 $g_i = 2(y_i - \hat y_i^{(t-1)})$
二阶导数 $h_i = 2$
对于其他loss, 同理可求 $g_i$ 和 $h_i$

3.2.3 $\Omega$ 部分化简展开

目标函数的惩罚项部分
$\begin{aligned} \Omega(f_t) =& \gamma\,T + \lambda\,||w_j||_2 \\ =& \gamma\,T + \frac 12 \lambda\,\sum_{i=1}^n w_j^2 \end{aligned}$

对于图中的决策树，惩罚项为：
$\gamma\,3 + \frac 12 \lambda\,(4 + 0.01 + 1)$

3.2.4 从按样本统计到按叶子统计

因为每个样本的权重就是所在叶子节点的权重 w，那么所有样本的权重之和就等于每个叶子节点的权重乘以叶子所含样本的个数然后再求和。

$\sum_{i=1}^n w_i = \sum_{j=1}^T w_j * d_j$

其中 $d_j$ 表示第 j 个叶子节点所含的样本数。

同理, 样本的一阶导数 $g_i$ 和二阶导数 $h_i$ 也只与其所在的叶子节点有关，所以有
$\sum_{i=1}^n g_i = \sum_{j=1}^T g_j * d_j = G_j$
$\sum_{i=1}^n h_i = \sum_{j=1}^T h_j * d_j = H_j$

这里分别用 $G_j$ 和 $H_j$ 表示每个叶子节点上样本导数的和。

代入到目标函数：
$\begin{aligned} Obj^{(t)} &= \sum_{i=1}^n [g_if_t(x_i) + \frac 12 h_i f_t^2(x_i)] + \Omega(f_t) + constant \\ &= \sum_{i=1}^n [g_if_t(x_i) + \frac 12 h_i f_t^2(x_i)] + \gamma\,T + \frac 12 \lambda\,\sum_{j=1}^T w_j^2 + constant\\ &= \sum_{j=1}^T [G_j \, w_j + \frac 12 H_j \, w_j^2 + \frac 12 \lambda\, w_j^2] + \gamma\,T + constant\\ &= \sum_{j=1}^T [G_j \, w_j + \frac 12 (H_j + \lambda) \, w_j^2 ] + \gamma\,T + constant\\ \end{aligned}$

这里 $f_t(x_i) = w_j$ 因为样本的分值就是其所在的叶子节点的权重。

注意到常数项对目标函数求梯度没有作用，可以舍弃，最终的目标函数为：
$Obj^{(t)} = \sum_{j=1}^T [G_j \, w_j + \frac 12 (H_j + \lambda) \, w_j^2 ] + \gamma\,T$

3.2.5 目标函数求解

目标函数中只有 $w_j$ 是变量，对目标函数求梯度计算最小值，可以得到最优的 $w_j$
$w_j = - \frac{G_j}{H_j+\lambda}$

有了 $w_j$ , 就有了 $f_t(x_i)$ ，因为
$f_t = \{w_1, w_2, ..., w_T\}$
此时的最优目标函数为
$Obj^{(t)} = -\frac 12 \sum_{j=1}^T \frac{G_j^2}{H_j+\lambda} + \gamma \, T$

下图例子中，5 个样本分到了 3 个叶子节点上，计算出的目标函数越小越好。

3.3 树的内部如何分支

至此，我们第 t 棵为每个叶子节点求出了最佳的 $w_j$ ，这有一个前提，在计算的过程中我们假设了第 t 棵树的叶子节点数为 T, 那么 T 如何确定，也就是第 t 棵树如何通过层层分支建立起来，以获得最优的叶子节点个数 T。

这里我们用了贪婪算法。

回想我们最初建立决策树时用熵的变化计算分支前后的信息增益来决定如何分支，这里我们也用类似的方式。

最优目标函数
$Obj^{(t)} = -\frac 12 \sum_{j=1}^T \frac{G_j^2}{H_j+\lambda} + \gamma \, T$

我们将分支前后最优目标函数的变化叫做增益。

对每一个叶节点进行分支，左分支最优目标函数：
$Obj_L = -\frac 12 \frac{G_{L}^2}{H_{L}+\lambda} + \gamma \, T_L$
右分支最优目标函数：
$Obj_R = -\frac 12 \frac{G_{R}^2}{H_{R}+\lambda} + \gamma \, T_R$

分支之前的叶子节点最优目标函数应该为：
$\begin{aligned} Obj &= -\frac 12 \frac{G^2}{H+\lambda} + \gamma \, T \\ &= -\frac 12 \frac{(G_L + G_R)^2}{(H_L + H_R)+\lambda} + \gamma \, (T_L + T_R -1) \\ \end{aligned}$

用分支前的 $Obj$ 减去分支后的 $Obj_L + Obj_R$ 作为增益 Gain，如果 Gain > 0, 说明分支后最优目标函数减小了，那么就应该分支。

$\begin{aligned} Gain &= Obj - (Obj_L + Obj_R) \\ &= \frac 12 [\frac{G_{L}^2}{H_{L}+\lambda} + \frac{G_{R}^2}{H_{R}+\lambda} - \frac{(G_L + G_R)^2}{(H_L + H_R)+\lambda}] - \gamma \end{aligned}$

现在有了要不要分支，那如果需要分的话从哪里分？比如属性有 n 个值，那么应该从哪里分呢?

首先需要将 n 个属性排序，然后尝试从任意两个相邻属性之间分支，有 n-1 种可能，我们依次计算这 n-1 种可能的每一种可能的 Gain, 最后从 Gain 最大处分支。

比如下图中我们对"年龄"属性进行分支，发现从 a 分支 Gain 最大，那就从 a 处分支。

四、XGBoost 一些优化点

快速停止

如果连续几次的 Gain 都小于等于 0，说明分支无益，可以提前停止。

步长收缩

通常不直接使用 $\hat y^{(t)} = \hat y^{(t-1)} + f_t(x_i)$ ，而是采用
$\hat y^{(t)} = \hat y^{(t-1)} + \epsilon \, f_t(x_i)$ , 其中 $\epsilon$ 叫做步长因子或收缩因子，通常为 0.1，这样做是为了不在每一步试图全局最优，而是给未来留下优化的空间，避免过拟合。

后记

XGBoost 就聊到这里了，作为大杀器的存在看起来有些复杂，我尽力用通俗的语言来描述、把所有过程推导细节都给出来，希望大家可以吃透，其实理解了思路，推导起来就简单多了。

XGBoost 是《决策树系列》的最后一篇文章，希望这个系列对大家有所帮助，哪怕只有一丢丢也很值得我为此开心。

好了，废话不多说了，从下一次开始我们将聊聊《神经网络系列》，从逻辑回归(LR)、深度神经网络(DNN)到卷积神经网络(CNN)，以及每种网络的正向传播和反向传播的推导，希望到时候还能和您一起，在大数据茶馆边喝茶边聊天~

欢迎关注本人公众号《大数据茶馆》，用大白话畅聊大数据。

来的都是客，欢迎您常来坐坐~

决策树系列6：XGBoost, 机器学习的大杀器

引言

一、XGBoost 简介

二、XGBoost 的基本思路