【机器学习】 XGBoost算法梳理

原創

zzllg

2020-07-02 11:28

前言：XGBoost原理上跟普通GBDT一样，都属于集成算法中的boost类。boost的原理可以看我的另外两篇介绍集成学习的文章，这里不多赘述。所以这篇文章主要在XGB与普通GBDT不同之处进行讨论。

1.损失函数

XGB的损失函数是支持自定义的，只要满足二阶可导即可。

XGB的损失函数除了拟合上一轮残差部分，还自带了两个损失项以减少树模型复杂度：

先讨论简单的，正则化部分：

系数：这里的γ和λ，你可以设定它们的值，显然，γ越大，表示越希望获得结构简单的树，因为此时对较多叶子节点的树的惩罚越大。λ越大也是越希望获得结构简单的树。

惩罚内容：是该轮构建树的叶子结点树，标识该结点上的值（值指的是回归树，分类树上则对应类别）。我理解的意义在于，建立新树过程中，不希望有某个分支突然学到“真理”，学习应该是循序渐进的，突然学得那么“精确”容易过拟合。比如一男子，50岁，第一个叶节点根据性别就猜对了男子50岁，后面都没有残差了，这显然不够科学。所以需要加入此正则化部分，1是可以使模型趋于简单，2可以避免过拟合。

再看头疼一点的，误差函数项，

为了好理解，先以平方误差（MSE）为例，和 $\widehat{y}^\left ( {t-1} \right )$ 都是已知项，上式可以转化为：

这个函数，是不是熟悉多了？因为和 $\widehat{y}^\left ( {t-1} \right )$ 都是已知项，所以这就是一个优雅的二次函数了，为什么说二次函数比较优雅，后面会提到。但是很多情况下，损失函数并不是平方误差这么简单，那就用泰勒展开，只保留到二次项。泰勒公式就不细说了（反正我也说不通...），泰勒展开后，上式会变成这样：

其中：

忽略损失函数中的第一个自变量（别忘了上面说的“在第t步，是真实值，即已知”，不影响后续目标函数对的偏导计算），做下一一对应：

● 泰勒二阶展开f 里的x对应目标函数里的

● f 里的对应目标函数的

● 从而f 对x求导数时，对应为目标函数对求偏导

这里有必要再明确一下，和的含义。怎么理解呢？现有t-1棵树是不是？这t-1棵树组成的模型对第i个训练样本有一个预测值 $\widehat{y}_i$ 是不是？这个 $\widehat{y}_i$ 与第i个样本的真实标签肯定有差距是不是？这个差距可以用 $L\left ( y_i,\widehat{y}_i \right )$ 这个损失函数来衡量是不是？现在和的含义已经清楚了，而且，更重要的是，和与当前要建立的树无关啊，可以分布运行啊，所以速度快啊。所以，上面的式子还可以进一步简化为（把常数项去掉）