集成学习系列：

Gradient Boosted Decision Tree（梯度提升决策树）

上一篇介绍了 $R a n d o m F o r e s t$ ，该算法利用 $Bagging$ 中的 $bootstrap$ 机制得到不同的 $Decision Tree$ ，然后将这些 $Decision Tree$ 融合起来。除了基本的 $Bagging$ 和 $Decision Tree$ 之外， $Random Forest$ 还在 $decision tree$ 中加入了更多的随机性。有了这些机制之后，我们发现这个算法可以利用 $OOB$ 数据做 $self validation$ ，进一步结合 $self validation$ 的机制和 $permutation test$ 的做法我们利用 $random forest$ 来做 $feature selection$ 。

提升方法 $(b o o s t i n g)$ 的代表性算法是 $AdaBoost$ 。提升树是以分类或者回归树为基本学习器的提升方法。由于树的线性组合可以很好的拟合训练数据，即使数据中的输入和输出之间的关系很复杂也没关系，所以提升树是一个高功能的学习算法。本篇讨论针对不同问题的提升树学习算法。其主要的区别在于使用的损失函数不同，首先介绍使用指数损失的分类问题，此时的提升树算法只需要将 $Adaboost$ 算法的弱分类器设置为加了限制的二分类树即可，可以说提升树算法用于分类是 $Adaboost$ 的特殊情况。接下来介绍提升树算法损失函数为平方损失时候的回归问题，之后我们会发现对回归问题的提升树算法来说，只需要在每一轮使得弱学习器来简单的拟合当前模型的残差就好了。提升树利用加法模型和前向分步算法实现优化过程，当损失函数为平方损失或者是指数损失时分别为我们上述讨论的回归问题和分类问题。但是对于一般的损失函数而言，每一步的优化并不简单。这样便有了梯度提升算法。其关键是利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值来进行回归树的拟合。

1 - 提升树模型

1.1 - 提升树用于分类-Adaboost的特殊情况

先再回顾下 $random forest$ 的算法的形式：外层是一个 $bagging$ ，可以使用 $bootstrap$ 的方式来得到不同的 $g_{t}$ ，内层是一个加了更多 $randomness$ 的 $randomized-decision tree$ 。
再回忆下 $adaboost$ 算法的步骤：在这个算法中，每一轮每一个样本被赋予一个权重 $u_{n}^{(t)}$ ，算法通过最小化被 $u_{n}^{(t)}$ 加权的 $E_{i n}$ 来得到 $g_{t}$ ，再计算 $g_{t}$ 的权重 $α_{t}$ 来融合得到最终的 $G$ 。

我们之前将 $decision tree$ 搭配 $bagging$ 得到了 $random forest$ ，同样地，我们可以将 $decision tree$ 搭配 $adaboost$ 得到 $boosting tree$ 提升树算法。但是现在我们需要面对的一个新的问题是，在算法 $boosting tree$ 中，决策树作为弱学习器是处理不了加权的数据的，而在 $adaboost$ 中每一轮的数据都是带有权重的数据，也就是 $adaboost$ 中的 $base algorithm$ 要能够解决如下的最小化问题：

m i n i m i z e E_{i n}^{u} = \frac{1}{N} \sum_{n = 1}^{N} u_{n} \cdot e r r (y_{n}, h (x_{n}))

因为 $decision tree$ 有很多种实现，有很多技巧在里面。所以我们决定将 $decision tree$ 当做是一个黑盒子，我们不再要求这个黑盒子可以处理加权的数据，而是对加权的数据本身做处理，使之变为不加权的数据然后喂给 $decision tree$ 。

其实这一点是很容易做到，权重是从 $bagging$ 中的 $bootstrap$ 中得到的，在做 $bootstrap$ 的时候，得到了几份 $(x_{n}, y_{n})$ ，那么 $(x_{n}, y_{n})$ 的权重就是几： $(x_{n}, y_{n})$ 的权重是3代表抽取到了3份 $(x_{n}, y_{n})$ ，权重是4代表抽取到了4份 $(x_{n}, y_{n})$ ，所以权重就代表了在资料中有几份 $(x_{n}, y_{n})$ 的复制。所以我们就可以根据 $bootstrap$ 的计算机制得到的权重 $u_{n}^{(t)}$ 先对资料进行抽样，这样就得到了一笔新的大小为 $N^{'}$ 资料 ${\tilde{D}}_{t}$ ，在这笔资料中就隐含了权重的信息。现在看来，在 $bagging$ 中我们是先 $bootstrap$ ，通过得到的样本数量获得权重；现在在 $boosting tree$ 中，我们利用了这个过程的逆过程，根据权重来得到样本的数量，这样做的目的是为了不改变底层的 $decision tree$ 算法。

所以在 $boosting tree$ 中，我们没有更改 $decision tree$ 的部分，没有更改 $adaptive boosting$ 的部分，而是在中间的环节按照样本的权重做了一个抽样的过程得到新的资料 ${\tilde{D}}_{t}$ 然后喂给 $decision tree$ 。

boosting tree

：

A d a B o o s t + s a m p l i n g \propto u^{(t)} + D e c i s i o n T r e e ({\tilde{D}}_{t})

1.2 - 提升树的一些改进

在 $a d a b o o s t$ 中，当得到了一个 $g_{t}$ 的时候，我们下一步需要作出的决定是这个 $g_{t}$ 该以多大的权重加入到 $G$ 中。这个权重我们记为 $α_{t}$ ， $α_{t}$ 的计算公式如下：

α_{t} = l n ⧫_{t} = l n \sqrt{\frac{1 - ϵ_{t}}{ϵ_{t}}}

其中

ϵ_{t}

指的是

g_{t}

的错误率。

这样可能会出现一个问题：
如果我们用于训练的资料完全是不同的，那么一棵完全长成的决策树的 $E_{i n}$ 就是 $0$ ，那么 $E_{i n}^{u} = 0$ ，那么 $ϵ_{t} = 0$ ，所以 $α_{t} = \infty$ 。所以在这种情况下，最终只是得到了一棵“最好”的树，这就违背了我们的大主题： $a g g r e g a t i o n$ 。
问题出在哪里呢？因为我们把所有的数据都喂给了算法，并且算法能得到的是一个完全长成的树。所以如果要解决这个问题的话，有两个方面可以着手：

不要把所有的数据都喂给算法；
对决策树构造算法做一些限制；

通过这样的技巧我们就可以得到一棵“弱”一点的树。其实我们通过 $bootstrap$ 抽样已经做到了不将所有的数据都喂给算法。另外通过采用简单的策略，例如限制决策树的高度也可以得到一棵比较“弱”的树。

所以在实际的应用中，提升树通常是如下的形式：原来的 $adaboost$ 算法的框架下，根据权重进行采样 $sampling$ ，从而得到隐含有权重意义的数据 ${\tilde{D}}_{t}$ ，并且通过这样的采样方式也可以避免得到一棵所谓“最好”的树，然后将 ${\tilde{D}}_{t}$ 喂给 $decision tree$ ，但是 $d e c i s i o n t r e e$ 的构造要加一点限制，通常是限制树的高度，也就是利用数据 ${\tilde{D}}_{t}$ 构造一棵 $pruned decision tree$ 。

boosting tree

：

A d a B o o s t + s a m p l i n g \propto u^{(t)} + p r u n e d D e c i s i o n T r e e ({\tilde{D}}_{t})

1.3 - 提升树实例

上面提到在 $boosting tree$ 算法中，决策树在构造的时候需要限制树的高度，得到一些“弱”一点的树，再和 $adaboost$ 搭配起来。我们考虑一种极端的情况，如果我们限制树的高度小于等于1，此时的决策树变为决策树桩。那么 $adaboost$ 和这样的 $decision tree （ h e i g h t <= 1 ）$ 搭配起来会是什么样子的呢？其实这个时候的 $boosting tree$ 就退化为了 $boosting stump$ 。

因为针对每一个样本集合，这时 $d e c i s i o n t r e e （ C A R T ）$ 需要做的就只是选择一个分支条件 $b (x)$ 将样本集合划分为两个子树。其划分的依据就是要使得划分之后的数据的不纯度最低：

b (x) = \underset{d e c i s i o n s t u m p h (x)}{a r g m i n} \sum_{c = 1}^{2} | D_{c} w i t h h | \cdot i m p u r i t y (D_{c} w i t h h)

这个时候就几乎不会出现 $ϵ = 0$ 的情况， 那么这个时候也不见得会做抽样，而是直接在 $d e c i s i o n s t u m p$ 中考虑权重。

所以简单来说，提升树用于分类只是将 $AdaBoost$ 算法框架中的弱分类器限制为二类分类树即可。

2 - 优化视角下的Adaboost

2.1 - Adaboost的指数损失函数

这一小节通过分析得到 $AdaBoost$ 算法的损失函数是实际上是指数损失 $L = e x p (- y s)$ 。并且可以证明， $AdaBoost$ 算法是前向分步算法在损失函数为指数函数时的加法模型。

首先我们回忆一下 $AdaBoost$ 中每一个样本的权重的计算公式， $u_{n}^{(t + 1)}$ 是根据 $u_{n}^{(t)}$ 计算得到的。如果该样本划分不正确，那么 $u_{n}^{(t + 1)} = u_{n}^{(t)} \cdot ⧫_{t}$ ；如果该样本划分正确，那么 $u_{n}^{(t + 1)} = u_{n}^{(t)} / ⧫_{t}$ 。我们再来审视一下这个更新规则：样本划分不正确的意思就是： $y_{n} \neq g_{t} (x_{n})$ ；样本划分正确的意思就是： $y_{n} = g_{t} (x_{n})$ 。那么权重 $u$ 的更新规则就变为：

u_{n}^{(t + 1)} = u_{n}^{(t)} \cdot ⧫_{t}^{- y_{n} g_{t} (x_{n})}

而

α_{t} = l n (⧫_{t}) = l n (\sqrt{\frac{1 - ϵ_{t}}{ϵ_{t}}})

，所以

⧫_{t} = e^{α_{t}}

更新规则进一步变为：

u_{n}^{(t + 1)} = u_{n}^{(t)} \cdot e x p (- y_{n} α_{t} g_{t} (x_{n}))

通过这样的表达我们看到样本 $(x_{n}, y_{n})$ 最终的权重 $u_{n}^{(T + 1)}$ 和初始的 $u_{n}^{(1)}$ 的关系如下：

u_{n}^{(T + 1)} = u_{n}^{(1)} \cdot \prod_{t = 1}^{T} e x p (- y_{n} α_{t} g_{t} (x_{n})) = \frac{1}{N} \cdot e x p (- y_{n} \sum_{t = 1}^{T} α_{t} g_{t} (x_{n}))

我们将 $\sum_{t = 1}^{T} α_{t} g_{t} (x)$ 称为 $voting score$ 。因为最后我们需要根据这个分数加一个 $s i g n$ 的操作来做分类的决定，即我们最终得到的模型是： $G (x) = s i g n (\sum_{t = 1}^{T} α_{t} g_{t} (x))$ 。从上面的式子可以看出 $AdaBoost$ 中的每一个数据点的权重 $u_{n}^{(T + 1)}$ 正比于负 $y_{n}$ 和 $voting score$ 的乘积的 $exponential$ 。

我们知道 $AdaBoost$ 是 $linear blending$ 的延伸，也就是要将 $g$ 线性的融合在一起。在 $linear blending$ 中我们可以将整个过程分为两步：1. 将所有的 $g$ 当做是一个特征转换；2. 将特征转换之后的结果使用一个线性的模型融合起来。

$l i n e a r b l e n d i n g = l i n e a r m o d e l + h y p o t h e s i s a s t r a n s f o r m$

G (x_{n}) = s i g n (\sum_{t = 1}^{T} \underset{w_{t}}{\underset{⏟}{α_{t}}} \underset{ϕ_{t} (x_{n})}{\underset{⏟}{g_{t} (x_{n})}})

因为 $g_{t} (x_{n})$ 可以视为特征转换，我们将其记为 $ϕ_{t} (x_{n})$ ，将每一个 $g_{t} (x_{n})$ 的权重记为 $w_{t}$ 。这时， $v o t i n g s c o r e$ 就变成了 $w^{T} Φ (x_{n})$ 。这样我们就得到了一个我们比较熟悉的形式，因为在硬间隔的 $SVM$ 中： $m a r g i n = \frac{y_{n} \cdot (w^{T} ϕ (x_{n}) + b)}{| | w | |}$ ，表示这个数据点距离边界有多远。所以在这里 $v o t i n g s c o r e$ （虽然和上面的相比少了一些项）也是某一种距离，也是某一种 $m a r g i n$ ，也是在某一个空间中这个点到分割线的距离的一种衡量。

所以 $y_{n} \cdot (v o t i n g s c o r e)$ 就相当于在 $S V M$ 中的没有归一化的 $m a r g i n$ ，也可以说是函数间隔。结合我们对 $SVM$ 的认识，我们希望 $y_{n} \cdot (v o t i n g s c o r e)$ 越大越好，即首先这个值要是个正的，正值保证了划分的正确性；其次要尽量的大，这样就能有更大的置信区间或者说更大的 $margin$ 。所以我们就会希望 $e x p (- y_{n} (v o t i n g s c o r e))$ 越小越好。也就是每一个数据点的权重 $u_{n}^{(T + 1)}$ 要越小越好。

通过上面的分析我们知道 $A d a B o o s t$ 想要达到 $l a r g e m a r g i n$ 的效果，就是要努力的使所有的 $y_{n} \cdot (v o t i n g s c o r e)$ 变大，就是要使所有的 $e x p (- y_{n} (v o t i n g s c o r e))$ 变小。就是要最小化 $\sum_{n = 1}^{N} u_{n}^{(T + 1)}$ ，现在可以将 $adaboost$ 的损失函数定义为：

\begin{matrix} (1) & L = \sum_{n = 1}^{N} u_{n}^{(T + 1)} = \frac{1}{N} \sum_{n = 1}^{N} e x p (- y_{n} \sum_{t = 1}^{T} α_{t} g_{t} (x_{n})) \end{matrix}

所以得到了 $A d a B o o s t$ 的损失函数为指数损失函数。

2.2 - 又一个0/1误差的上界

画出 $0/1 error$ 和 $AdaBoost error$ 的曲线发现， $e x p o n e n t i a l e r r o r$ （图中的曲线）是 $0 / 1 e r r o r$ （图中的折线）的一个上限。我们之前就碰到过 $0 / 1 e r r o r$ 的一些上限， $SVM$ 的 $hinge error (m a x (1 - s y, 0))$ ， $logistic regression$ 的 $scale cross entropy (l n (1 + e x p (- y s)))$ 都是 $0 / 1 e r r o r$ 的上限，我们之前都是利用这些上限将 $0 / 1 e r r o r$ 做到最小，从而将分类问题做好。

现在我们从另一个角度看到 $A d a b o o s t$ 通过最小化 $\sum_{n = 1}^{N} u_{n}^{(T + 1)}$ 以使得得到的边界有 $l a r g e m a r g i n$ 的效果，所以 $a d a b o o s t$ 算法在函数

\begin{matrix} (2) & \sum_{n = 1}^{N} e x p (- y_{n} \sum_{t = 1}^{T} α_{t} g_{t} (x_{n})) \end{matrix}

上做最小化，我们就将 $(2)$ 定义为 $a d a b o o s t e r r o r m e a s u r e$ 。最终通过最小化 $e r r_{\hat{a d a}}$ 将 $e r r_{0 / 1}$ 做到最好。

$e r r_{0 / 1} (s, y) = | [y s \leq 0] |$
$e r r_{\hat{a d a}} (s, y) = e x p (- y s)$

在 $A d a B o o s t$ 中既然我们想要所有的样本点的权重越小越好，也就是想要最后的权重的总和越小越好，也就是要在上式 $(1)$ 中做最小化。 $A d a B o o s t$ 就是要做如下的一个最优化的问题：

\underset{h}{m i n} E_{A D A} = \frac{1}{N} \sum_{n = 1}^{N} e x p (- y_{n} \sum_{t = 1}^{T} α_{t} g_{t} (x_{n}))

解决上述最优化问题利用的工具是梯度下降法，梯度下降法的思路基本上是：当想要最小化一个函数的时候，可以看看从当前的点出发往哪个方向 $v$ 走一小步会使得结果变好。通常的方法是在该点附近使用泰勒公式进行展开，之后通过分析可以得到能使得函数变小的最好的方向就是负梯度的方向。沿着这个方向走一个小小的步长 $η$ ，这样就离我们的目标更近了一步。

泰勒展开

\begin{matrix} (3) & \underset{| | v | | = 1}{m i n} E_{i n} (w_{t} + η v) \approx E_{i n} (w_{t}) + η v^{T} ▽ E_{i n} (w_{t}) \end{matrix}

现在如果我们想要找一个函数 $g_{t}$ 当做方向，（向量和函数在本质上是一样的。当操作的对象是向量的时候，我们根据下标 $i n d e x$ 可以得到向量中的值；当操作的对象是函数的时候，我们根据输入 $x$ 可以得到函数的输出值，所以向量的 $i n d e x$ 是整数，函数的 $i n d e x$ 是实数。这样看来，函数就是无限维度的向量）。在 $g r a d i e n t d e s c e n t$ 中，我们想要找一个好的向量方向，沿着这个向量方向走一个步长 $η$ 来做最优化；在这里我们想要找一个好的函数 $h (x)$ ，沿着这个函数走一个步长 $η$ 来做最优化。
当前的 $a d a b o o s t$ 已经得到函数是 $\sum_{τ = 1}^{t - 1} α_{τ} g_{τ} (x_{n})$ , 所以就是要在 $\sum_{τ = 1}^{t - 1} α_{τ} g_{τ} (x_{n})$ 上加一个好的函数 $h (x_{n})$ （向量方向）和步长 $η$ 的乘积 $η h (x_{n})$ 来使得最终的结果变好一点。

\begin{matrix} (4) & \underset{h}{m i n} \hat{E_{a d a}} = \frac{1}{N} \sum_{n = 1}^{N} e x p (- y_{n} (\sum_{τ = 1}^{t - 1} α_{τ} g_{τ} (x_{n}) + η h (x_{n}))) \end{matrix}

现在我们要想办法将

(4)

变成

(3)

的形式，

\begin{aligned} \underset{h}{m i n} \hat{E_{a d a}} & = \frac{1}{N} \sum_{n = 1}^{N} e x p (- y_{n} (\sum_{τ = 1}^{t - 1} α_{τ} g_{τ} (x_{n}) + η h (x_{n}))) \\ = \frac{1}{N} \sum_{n = 1}^{N} e x p ((- y_{n}) \sum_{τ = 1}^{t - 1} α_{τ} g_{τ} (x_{n})) \cdot e x p (- y_{n} η h (x_{n})) \\ = \sum_{n = 1}^{N} u_{n}^{(t)} e x p (- y_{n} η h (x_{n})) \\ \overset{t a y l o r}{\approx} \sum_{n = 1}^{N} u_{n}^{(t)} (1 - y_{n} η h (x_{n})) \\ = \sum_{n = 1}^{N} u_{n}^{(t)} - η \sum_{n = 1}^{N} u_{n}^{(t)} y_{n} h (x_{n}) \end{aligned}

泰勒展开式： $e x p (x) = 1 + x + \frac{x^{2}}{2!} + \frac{x^{3}}{3!} + \cdot + \frac{x^{N}}{N!} + \dots$

通过上面的操作得到了和在 $g r a d i e n t d e s c i e n t$ 中类似的形式，现在我们的目标是要找到一个好的 $h$ 来最小化 $\sum_{n = 1}^{N} u_{n}^{(t)} (- y_{n} h (x_{n}))$ 。对于二分类问题来说：

\begin{aligned} (1) & \sum_{n = 1}^{N} u_{n}^{(t)} (- y_{n} h (x_{n})) \\ (2) & = & \sum_{n = 1}^{N} u_{n}^{(t)} {\begin{aligned} - 1 i f y_{n} = h (x_{n}) \\ 1 i f y_{n} \neq h (x_{n}) \end{aligned} \\ (3) & = & - \sum_{n = 1}^{N} u_{n}^{(t)} + \sum_{n = 1}^{N} u_{n}^{(t)} {\begin{aligned} 0 i f y_{n} = h (x_{n}) \\ 2 i f y_{n} \neq h (x_{n}) \end{aligned} \\ (4) & = & - \sum_{n = 1}^{N} u_{n}^{(t)} + 2 E_{i n}^{u^{(t)}} \cdot N \end{aligned}

我们的出发点是要找到一个好的 $h (x)$ 让 $\sum_{n = 1}^{N} u_{n}^{(t)} (- y_{n} h (x_{n}))$ 变小，经过上面的推导发现想要让 $\sum_{n = 1}^{N} u_{n}^{(t)} (- y_{n} h (x_{n}))$ 变小的就要让 $E_{i n}^{u^{(t)}}$ 变小。能够使得 $E_{i n}^{u^{(t)}}$ 变小的正是 $a d a b o o s t$ 中的 $b a s e a l g o r i t h m$ 算法 $A$ 。所以 $b a s e a l g o r i t h m$ 找到了一个好的函数方向。我们原来认为 $A$ 找到的 $g_{t}$ 只是为了让 $E_{i n}^{u^{(t)}}$ 变小，现在经过这样的推导发现，这个 $g_{t}$ 是一个能够让 $E_{\hat{a d a}}$ 变小的函数方向。

$a d a b o o s t$ 通过大概的最小化 $\hat{E_{a d a}} = \sum_{n = 1}^{N} u_{n}^{(t)} e x p (- y_{n} η h (x_{n}))$ 得到了一个好的函数（方向），按照 $g r a d i e n t d e s c e n t$ 的做法，现在要做的就是沿着这个方向走一小步。但是在这里我们不仅仅满足于只走一小步，而是想要走一大步。也就是说在 $g_{t}$ 被固定了之后，想要选择一个最大的 $η$ 来使得 $\hat{E_{a d a}}$ 最小：

\underset{η}{m i n} \hat{E_{a d a}} = \sum_{n = 1}^{N} \underset{◯}{\underset{⏟}{u_{n}^{(t)} e x p (- y_{n} η g_{t} (x_{n}))}}

那么怎么来得到这个最好的步长

η

呢？

当 $y_{n} = g_{t} (x_{n})$ 的时候， $◯ = u_{n}^{(t)} e x p (- η)$
当 $y_{n} \neq g_{t} (x_{n})$ 的时候， $◯ = u_{n}^{(t)} e x p (+ η)$

\hat{E_{a d a}} = (\sum_{n = 1}^{N} u_{n}^{(t)}) \cdot ((1 - ϵ) e x p (- η) + ϵ_{t} e x p (+ η))

对

η

求导来得到最优解:

\frac{\partial \hat{E_{a d a}}}{\partial η} = 0 ⟶ η_{t} = l n \sqrt{\frac{1 - ϵ_{t}}{ϵ}} = α_{t}

所以这样看来， $a d a b o o s t$ 使用 $b a s e a l g o r i t h m A$ 来得到一个最好的函数方向，当最好的函数方向 $g_{t}$ 得到之后， $a d a b o o s t$ 给这个 $g_{t}$ 一个权重或者说是票数 $α_{t}$ ，现在我们知道了这个由 $a d a b o o s t$ 给出的权重 $α_{t}$ 是一个最佳问题的解。所以 $a d a b o o s t$ 通过也可以称为 $s t e e p e s t d e s c e n t w i t h a p p r o x i m a t e f u n c t i o n a l g r a d i e n t$ 。

3 - Gradient Boosting

上一小节对 $adaboost$ 做了另一种解释， $adaboost$ 的每一轮可以看做是在最小化 $exponential error$ ：在每一轮中首先找出一个 $h$ ，将这个 $h$ 作为 $g_{t}$ ；然后再决定要沿着这个 $g_{t}$ 走多远的距离，这个距离会变成 $g_{t}$ 的权重 $α_{t}$ 。所以一共有两个最佳化的过程：一个是对 $h$ 的最佳化过程，一个是对 $η$ 的最佳化过程。

\begin{matrix} (1) & \underset{η}{m i n} \underset{h}{m i n} \frac{1}{N} \sum_{n = 1}^{N} e x p (- y_{n} (\sum_{τ = 1}^{t - 1} α_{t} g_{τ} (x_{n}) + η h (x_{n}))) \end{matrix}

这样的概念可以不可以用在不同的 $error function$ 上呢？也就是说不再仅仅只是 $(1)$ 中的 $exponential error$ 。例如如果我们想做的是 $l o g i s t i c r e g r e s s i o n$ 的话，我们关注的 $e r r o r$ 是 $c r o s s e n t r o p y e r r o r$ ，如果我们想做的是 $r e g r e s s i o n$ 的话，我们关注的 $e r r o r$ 是 $s q u a r e d e r r o r$ 。

3.1 - 前向分步算法优化加法模型

基于上述的讨论，将 $（ 1 ）$ 式进行扩展，将 $e r r$ 换掉，不再局限于使用 $e x p o n e n t i a l e r r o r$ ，而是可以使用任何我们感兴趣的 $e r r o r f u n c t i o n$ 。

\begin{matrix} (1) & \underset{η}{m i n} \underset{h}{m i n} \frac{1}{N} \sum_{n = 1}^{N} e r r (\sum_{τ = 1}^{t - 1} α_{t} g_{τ} (x_{n}) + η h (x_{n}), y_{n}) \end{matrix}

这是一个新的 $a g g r e g a t i o n$ 的模型：从当前已经得到的模型 $\sum_{τ = 1}^{t - 1} α_{t} g_{τ} (x_{n})$ 出发，沿着 $h (x_{n})$ 走步长 $η$ ，目的是为了让 $e r r$ 变小，所以同样的在每一轮都是做两件事：先决定一个好的方向 $h$ 作为 $g_{t}$ ，然后决定要沿着这个 $g_{t}$ 更新多远得到步长 $η$ 并作为权重 $α_{t}$ 将 $g_{t}$ 融入到最中的 $G$ 中。所以这样的模型很像是 $a d a b o o s t$ 只不过是对 $a d a b o o s t$ 做了延伸，我们称之为 $g r a d i e n t B o o s t$ ，由不同的 $e r r o r f u n c i t o n$ 就可以解决不同的问题例如 $r e g r e s s i o n$ 或者是 $s o f t c l a s s i f i c a t i o n$ 。

3.2 - 提升树用于回归

当我们想要使用 $boosting tree$ 做 $r e g r e s s i o n$ 的时候应该怎么做呢？我们关心的是 $s q u a r e d e r r o r$ ： $e r r (s, y) = (s - y)^{2}$

\underset{η}{m i n} \underset{h}{m i n} \frac{1}{N} \sum_{n = 1}^{N} e r r (\underset{s_{n}}{\underset{⏟}{\sum_{τ = 1}^{t - 1} α_{τ} g_{τ} (x_{n})}} + η h (x_{n}), y_{n})

我们将使用当前已经得到的模型 $\sum_{τ = 1}^{t - 1} α_{τ} g_{τ} (x_{n})$ 对样本 $x_{n}$ 做出的预测结果记为 $s_{n}$ ，我们的目的就是要从 $s_{n}$ 出发沿着某个 $h (x_{n})$ 更新某个步长 $η$ 来使得 $e r r$ 变小。所以第一步我们首先找一个最好的 $h (x)$ 作为 $g_{t}$ ：

\begin{aligned} \underset{h}{m i n} \frac{1}{N} \sum_{n = 1}^{N} e r r (s_{n} + η h (x_{n}), y_{n}) \\ \overset{t a r l o r}{\approx} \underset{h}{m i n} \frac{1}{N} \sum_{n = 1}^{N} e r r (s_{n}, y_{n}) + \frac{1}{N} \sum_{n = 1}^{N} η h (x_{n}) \frac{\partial e r r (s, y_{n})}{\partial s} |_{s = s_{n}} \\ = \underset{h}{m i n} \underset{◯}{\underset{⏟}{c o n s t a n t s + \frac{η}{N} \sum_{n = 1}^{N} h (x_{n}) 2 (s_{n} - y_{n})}} \end{aligned}

我们现在是要找一个 $h (x_{n})$ 来使得 $◯$ 最小，那么易知当 $h (x_{n}) = - \infty \cdot (s_{n} - y_{n})$ 的时候，上式可以取得最小。因为首先 $- (s_{n} - y_{n})$ 保证了结果是负数，再乘以一个 $\infty$ ，就是负的无穷大，这是最直观的该最小化问题的解。但是因为在这里 $h (x_{n})$ 相当于一个方向，所以应该对其长度进行一下限制，这样就可以避免出现 $- \infty$ 。并且长度的问题最后交给步长 $η$ 来解决。
基于以上的讨论我们应该解决的问题是：

\underset{| | h | | = 1}{m i n} c o n s t a n t s + \frac{η}{N} \sum_{n = 1}^{N} h (x_{n}) 2 (s_{n} - y_{n})

但是这样的话变成了需要求解一个有条件 $| | h | | = 1$ 的最佳化问题，因为我们并不在乎 $h$ 的大小，所以我们将其作为一个惩罚项放入目标函数中的，只是限制使得 $h (x)$ 不要太大即可，新的问题变为：

\begin{aligned} \underset{h}{m i n} c o n s t a n t s + \frac{η}{N} \sum_{n = 1}^{N} (2 h (x_{n}) (s_{n} - y_{n}) + h (x_{n})^{2}) \\ = c o n s t a n t s + \frac{η}{N} \sum_{n = 1}^{N} (c o n s t a n t + (h (x_{n}) - \underset{r e s i d u a l}{\underset{⏟}{(y_{n} - s_{n})}})^{2}) \end{aligned}

$y_{n}$ 是目标值， $s_{n}$ 是目前给出的预测值，我们将 $y_{n} - s_{n}$ 定义为残差 $r e s i d u a l$ 。为了达到最小化的目的，就是要找一个 $h$ ，使得对于所有的样本来说， $h (x_{n})$ 和 $(y_{n} - s_{n})$ 尽可能的接近，即 $h (x_{n})$ 和 $(y_{n} - s_{n})$ 的均方误差要尽可能的小。

所以我们回归问题的提升树只要在每一轮都拟合当前模型的残差就好了，即在数据 ${(x_{n}, y_{n} - s_{n})}$ 上做一个 $r e g r e s s i o n$ 就好了。

所以当我们使用 $g r a d i e n t b o o s t$ 来做 $r e g r e s s i o n$ 的时候，我们需要利用 $b a s e a l g o r i t h m$ 在 $r e s i d u a l$ 数据 ${(x_{n}, y_{n} - s_{n})}$ 上找一个好的 $g_{t}$ （方向）；而在 $a d a b o o s t$ 中的 $b a s e a l g o r i t h m$ 是根据加权的数据 ${x_{n}, y_{n}}$ 来找到一个好的 $g_{t}$ 。

在上一步中我们知道了怎么找到一个好的 $g_{t}$ 了，也就是要求解一个 $r e g r e s s i o n$ 问题来拟合 $x_{n}$ 和 $y_{n} - s_{n}$ ，现在的问题是，当找到了一个好的 $g_{t}$ 之后，我们要怎么决定这个 $g_{t}$ 的权重 $η$ 呢？同样是求解如下的一个最优化的问题：

\underset{η}{m i n} \frac{1}{N} \sum_{n = 1}^{N} (s_{n} + η g_{t} (x_{n}) - y_{n})^{2} = \frac{1}{N} \sum_{n = 1}^{N} (\underset{r e s i d u a l}{\underset{⏟}{(y_{n} - s_{n})}} - η g_{t} (x_{n}))^{2}

为了最小化我们需要求解的是一个在数据集 ${(g_{t} (x_{n}), r e s i d u a l)}$ 上的单变量 $η$ 的线性回归问题。所以当使用 $g r a d i e n t b o o s t$ 来做 $r e g r e s s i o n$ 的时候，在需要求解 $g_{t}$ 的权重 $α_{t}$ 的时候是使用 $g_{t}$ 来做一个特征转换，然后求解一个简单的 $l i n e a r r e g r e s s i o n$ 。

把以上讨论的东西都合在一起就得到了一个算法我们称之为 $G r a d i e n t B o o s t e d D e c i s i o n T r e e (G B D T)$ 。刚刚只是讲解了 $g r a d i e n t b o o s t e d$ ，这里的 $d e c i s i o n t r e e$ 用做 $b a s e l e a r n e r$ 。

$G r a d i e n t B o o s t e d D e c i s i o n T r e e (G B D T)$
$f o r r e g r e s s i o n$
$s_{1} = s_{2} = \dots = s_{N} = 0$
$f o r t = 1, 2, \dots, T$
1. $o b t a i n g_{t} b y A ({(x_{n}, y_{n} - s_{n})}) w h e r e A i s a (s q u a r e d e r r o r) r e g r e s s i o n a l g o r i t h m$
2. $c o m p u t e α_{t} = O n e V a r L i n e a r R e g r e s s i o n ({(g_{t} (x_{n}), y_{n} - s_{n})})$
3. $u p d a t e s_{n} ⟵ s_{n} + α_{t} g_{t} (x_{n})$
$r e t u r n G (x) = \sum_{}^{} α_{t} g_{t} (x)$

因为初始的 $s_{1} = s_{2} = \dots = s_{N} = 0$ ，所以在第一轮的时候 $b a s e l e a r n e r$ ，这里是用 $d e c i s i o n t r e e$ 做的是一个正常的 $r e g r e s s i o n$ ，从第二轮之后才在数据 ${(x_{n}, y_{n} - s_{n})}$ 上做 $r e g r e s s i o n$ 。在得到了 $g_{t}$ 之后我们要想办法得到一个 $α_{t}$ ，这时就是在 ${(g_{t} (x_{n}), y_{n} - s_{n})}$ 上做一个单变量的回归问题。当计算完成之后，就需要对每一个样本的分数进行更新， $s_{n} ⟵ s_{n} + α_{t} g_{t} (x_{n})$ 。这样做了 $T$ 轮之后就可以得到一堆 $d e c i s i o n t r e e$ 最后得到 $G$ 。

通过上述的推导可以引出 $gradient boosting$ 。到现在为止我们分析了提升树算法的损失函数为指数损失函数和平方误差损失函数的情况，但是对于一般的损失函数而言，优化的过程并不是这么简单的。针对这一问题 $Feridman$ 提出了梯度提升（ $gradient boosting$ ）。其关键有点类似提升树用于回归的推导：利用损失函数的负梯度在当前模型的值作为回归问题提升树中的残差的近似值，以此来拟合一个回归树。

r_{n} \approx - [\frac{\partial L (y, f (x_{i}))}{\partial f (x_{i})}]_{f (x) = f_{m - 1} (x)}

4 - Summary of Aggregation Models

4.1 - Blending Models

用于当手头已经有了一些 $g_{t}$ 的时候，将它们进行集成，集成的方式有如下的三种：

$u n i f o r m$ ：每一个 $g_{t}$ 都是同样的地位，可以通过 $v o t i n g$ 或者是 $a v e r a g i n g$ 来进行集成。
$n o n$ - $u n i f o r m$ ：如果每一个 $g_{t}$ 有不同的重要性的时候，可以将这些 $g_{t}$ 看成是特征转换，然后再喂给一个 $l i n e a r m o d e l$ 来学习每一个 $g_{t}$ 的权重。
$c o n d i t i o n a l$ ：如果要在不同的情况下使用不同的 $g_{t}$ ，同样将每一个 $g_{t}$ 看成是特征转换，只是在第二个阶段的学习当中，使用 $n o n l i n e a r m o d e l$ 而不是 $l i n e a r m o d e l$ 。这样的模型称为 $s t a c k i n g$ 。

通过 $u n i f o r m$ 的方式，不同的 $g_{t}$ 会取长补短，相互修正，得到的模型比较稳定。通过 $n o n u n i f o r m$ 或者是 $c o n d i t i o n a l$ 的方式可以得到比较复杂的模型，但是要小心 $o v e r f i t t i n g$ 的风险。

4.2 - Aggregation-Learning Modeling

$l e a r n i n g$ 指的是我们还没有 $g$ ，我们要边学 $g$ 边考虑怎么样对它们进行集成，

$B a g g i n g$ ：通过 $b o o t s t r a p$ 机制来得到不同的 $g_{t}$ ，然后通过 $u n i f o r m$ 的形式进行集成
$A d a B o o s t$ ： $a d a b o o s t$ 通过更新每一笔资料的权重的方式来得到很不一样的 $g_{t}$ ，在得到了 $g_{t}$ 之后依据它们的表现来决定其在最终的 $G$ 中的权重 $α_{t}$ 。从最佳化的角度来说， $g_{t}$ 是能够使得 $e r r o r$ 降低的最好的方向，类似于梯度下降中的负梯度方向，这个权重可以理解为要在 $g_{t}$ 的方向上更新的最大的步长。
$D e c i s i o n T r e e$ ：通过寻找不同的特征划分数据，最后在不同的条件下使用不同的 $g$ 。
$G r a d i e n t B o o s t$ ：将 $a d a b o o s t$ 延伸到 $g r a d i e n t b o o s t$ ，不同于 $a d a b o o s t$ ，在学习 $g$ 的时候不是通过更新样本的权重，例如在 $r e g r e s s i o n$ 的时候，是对 $r e s i d u a l$ 进行拟合从而得到好的 $g$ 。

4.3 - Aggregation of Aggregation Models

$decision tree + bagging$ 可以得到 $random forest$
$decision tree + adaboost$ 可以得到 $boostin tree$
$decision tree + gradient boost$ 可以得到 $gradient boost decision tree$

4.4 - Specialty of Aggregation Models

为什么 $a g g r e g a t i o n$ 这样的模型可以表现的很好呢？主要由于两个方面的原因：首先 $a g g r e g a t i o n$ 解决了 $u n d e r f i t t i n g$ ，因为集成了很多的 $g$ 的表现，可以把这些 $g$ 看成是对原始特征不同的 $f e a t u r e t r a n s f o r m$ ；另一个方面来说当集成了很多的 $g$ 之后，会得到一个比较“中庸”的结果， $a g g r e g a t i o n$ 达到了 $r e g u l a r z a t i o n$ 的效果，

5 - 总结

这篇的主要内容是 $G r a d i e n t B o o s t e d D e c i s i o n T r e e$ 。首先先讲述了如何将 $a d a b o o s t$ 和 $d e c i s i o n t r e e$ 进行搭配来得到 $a d a b o o s t d e c i s i o n t r e e$ ，为此引入了 $s a m p l i n g a n d p r u n i n g$ 来得到一棵棵比较弱的 $d e c i s i o n t r e e$ ，这样 $a d a b o o s t$ 和 $d e c i s i o n t r e e$ 的组合才能发挥最大的效果。之后我们使用 $o p t i m i z a t i o n$ 的角度来重新的看 $a d a b o o s t$ ，发现 $a d a b o o s t$ 每一次找到一个 $g_{t}$ 就是找了一个好的方向，这个 $g_{t}$ 的权重 $α_{t}$ 其实就是一个适当的步长。我们将这个模型延伸得到了 $g r a d i e n t b o o s t i n g$ ，引入不同种类的 $e r r o r$ ，经过推导发现当 $g r a d i e n t b o o s t i n g$ 用于 $r e g r e s s i o n$ 的时候其实 $b a s e l e a r n e r$ 是在做一个 $r e s i d u a l f i t t i n g$ 。

_席达_

发布了109 篇原创文章 · 获赞 102 · 访问量 40万+

他的留言板关注

机器学习笔记-Gradient Boosted Decision Tree

Gradient Boosted Decision Tree（梯度提升决策树）

1 - 提升树模型

1.1 - 提升树用于分类-Adaboost的特殊情况

1.2 - 提升树的一些改进

1.3 - 提升树实例

2 - 优化视角下的Adaboost

2.1 - Adaboost的指数损失函数

2.2 - 又一个0/1误差的上界

3 - Gradient Boosting

3.1 - 前向分步算法优化加法模型

3.2 - 提升树用于回归

4 - Summary of Aggregation Models

4.1 - Blending Models

4.2 - Aggregation-Learning Modeling

4.3 - Aggregation of Aggregation Models

4.4 - Specialty of Aggregation Models

5 - 总结

機器學習筆記-Gradient Boosted Decision Tree

機器學習筆記-Blending and Bagging

機器學習筆記-Kernel Logistic Regression

機器學習筆記-Regularization

word2vec安裝使用筆記

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結