這就是XGBoost算法原理

說到XGBoost，不得不說GBDT，GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一種迭代的決策樹算法，該算法由多棵決策樹組成，所有樹的結論累加起來做最終答案。它在被提出之初就和SVM一起被認爲是泛化能力（generalization)較強的算法。近些年更因爲被用於搜索排序的機器學習模型而引起大家關注。
GBDT是基於決策樹，想學習關於決策樹的內容可以看這篇文章https://blog.csdn.net/blank_tj/article/details/82081002

決策樹分爲兩大類，迴歸樹和分類樹。前者用於預測實數值，如明天的溫度、用戶的年齡、網頁的相關程度；後者用於分類標籤值，如晴天/陰天/霧/雨、用戶性別、網頁是否是垃圾頁面。這裏要強調的是，前者的結果加減是有意義的，如10歲+5歲-3歲=12歲，後者則無意義，如男+男+女=到底是男是女？ GBDT的核心在於累加所有樹的結果作爲最終結果，就像前面對年齡的累加（-3是加負3），而分類樹的結果顯然是沒辦法累加的，所以GBDT中的樹都是迴歸樹，不是分類樹，這點對理解GBDT相當重要（儘管GBDT調整後也可用於分類但不代表GBDT的樹是分類樹）。

迴歸樹總體流程是在每個節點（不一定是葉子節點）都會得一個預測值，以年齡爲例，該預測值等於屬於這個節點的所有人年齡的平均值。分枝時窮舉每一個feature的每個閾值找最好的分割點，但衡量最好的標準不再是最大熵，而是最小化均方差：即（每個人的年齡-預測年齡）^2 的總和 / N，或者說是每個人的預測誤差平方和除以 N。這很好理解，被預測出錯的人數越多，錯的越離譜，均方差就越大，通過最小化均方差能夠找到最靠譜的分枝依據。

加法模型

XGBoost算法可以看成是由K棵樹組成的加法模型：

${\hat{y}}_{i} = \sum_{k = 1}^{K} f_{k} (x_{i}), f_{k} \in F (1)$

其中 $F$ 爲所有樹組成的函數空間，以迴歸任務爲例，迴歸樹可以看作爲一個把特徵向量映射爲某個score的函數。該模型的參數爲： $Θ = f_{1}, f_{2}, . ., f_{K}$ 。於一般的機器學習算法不同的是，加法模型不是學習d維空間中的權重，而是直接學習函數（決策樹）集合。上述加法模型的目標函數定義爲：

$O b j = \sum_{i = 1}^{n} l (y_{i}, {\hat{y}}_{i}) + \sum_{k = 1}^{K} Ω (f_{k})$

其中 $Ω$ 表示決策樹的複雜度，那麼該如何定義樹的複雜度呢？比如，可以考慮樹的節點數量、樹的深度或者葉子節點所對應的分數的 $L 2$ 範數等等。

如何來學習加法模型呢？

解這一優化問題，可以用前向分佈算法（forward stagewise algorithm）。因爲學習的是加法模型，如果能夠從前往後，每一步只學習一個基函數及其係數（結構），逐步逼近優化目標函數，那麼就可以簡化複雜度。這一學習過程稱之爲Boosting。具體地，我們從一個常量預測開始，每次學習一個新的函數，過程如下：

${\hat{y}}_{i}^{0} = 0 {\hat{y}}_{i}^{1} = f_{1} (x_{i}) = {\hat{y}}_{i}^{0} = f_{1} (x_{i}) {\hat{y}}_{i}^{2} = f_{1} (x_{i}) + f_{2} (x_{i}) = {\hat{y}}_{i}^{1} + f_{2} (x_{i}) . . . {\hat{y}}_{i}^{t} = \sum_{k = 1}^{t} f_{k} (x_{i}) = {\hat{y}}_{i}^{t - 1} + f_{t} (x_{i})$

那麼，在每一步如何決定哪一個函數 $f$ 被加入呢？指導原則還是最小化目標函數。
在第 $t$ 步，模型對 $x_{i}$ 的預測爲： ${\hat{y}}_{i}^{t} = {\hat{y}}_{i}^{t - 1} + f_{t} (x_{i})$ ，其中 $f_{t} (x_{i})$ 爲這一輪我們要學習的函數（決策樹）。這個時候目標函數可以寫爲：

$O b j^{(t)} = \sum_{t = 1}^{n} l (y_{i}, {\hat{y}}_{i}^{t}) + \sum_{i = i}^{t} Ω (f_{i}) = \sum_{i = 1}^{n} l (y_{i}, {\hat{y}}_{i}^{t - 1} + f_{t} (x_{i})) + Ω (f_{t}) + c o n s t a n t (1)$

舉例說明，假設損失函數爲平方損失（square loss），則目標函數爲：
$O b j^{(t)} = \sum_{i = 1}^{n} (y_{i} - ({\hat{y}}_{i}^{t - 1} + f_{t} (x_{i})))^{2} + Ω (f_{t}) + c o n s t a n t = \sum_{i = 1}^{n} [2 ({\hat{y}}_{i}^{t - 1} - y_{i}) f_{t} (x_{i}) + f_{t} (x_{i})^{2}] + Ω (f_{t}) + c o n s t a n t (2)$

其中， $({\hat{y}}_{i}^{t - 1} - y_{i})$ 稱之爲殘差 $(r e s i d u a l)$ 。因此，使用平方損失函數時，GBDT算法的每一步在生成決策樹時只需要擬合前面的模型的殘差。

泰勒公式

設n是一個正整數，如果定義在一個包含 $α$ 的區間上的函數 $f$ 在 $α$ 點處n+1次可導，那麼對於這個區間上的任意x都有： $f (x) = \sum_{n = 0}^{N} \frac{f^{n} (α)}{n!} (x - α)^{n} + R_{n} (x)$ ，其中的多項式稱爲函數在 $α$ 處的泰勒展開式， $R_{n} (x)$ 是泰勒公式的餘項且是 $(x - α)^{n}$ 的高階無窮小。

根據泰勒公式把函數 $f (x + Δ x) \approx f (x) + f^{^{'}} (x) Δ x + \frac{1}{2} f^{^{″}} (x) Δ x^{2} (3)$

由等式(1)可知，目標函數是關於變量 ${\hat{y}}_{i}^{t - 1} + f_{t} (x_{i})$ 的函數，若把變量 ${\hat{y}}_{i}^{t - 1}$ 看成是等式(3)中的 $x$ ，把變量 $f_{t} (x_{i})$ 看成是等式(3)中的 $Δ x$ ，則等式(1)可轉化爲：

$O b j^{(t)} = \sum_{i = 1}^{n} [l (y_{i}, {\hat{y}}_{i}^{t - 1}) + g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + Ω (f_{t}) + c o n s t a n t (4)$

其中， $g_{i}$ 定義爲損失函數的一階導數，即 $g_{i} = \partial_{{\hat{y}}^{t - 1}} l (y_{i}, {\hat{y}}^{t - 1}) ；$ $h_{i}$ 定義爲損失函數的二階導數，即 $h_{i} = \partial_{{\hat{y}}^{t - 1}}^{2} l (y_{i}, {\hat{y}}^{t - 1})$ 。

假設損失函數爲平方損失函數，則 $g_{i} = \partial_{{\hat{y}}^{t - 1}} ({\hat{y}}^{t - 1} - y_{i})^{2} = 2 ({\hat{y}}^{t - 1} - y_{i}) ， h_{i} = \partial_{{\hat{y}}^{t - 1}}^{2} ({\hat{y}}^{t - 1} - y_{i})^{2} = 2$ ，把 $g_{i}$ 和 $h_{i}$ 帶入等式（4）和（2）。

由於函數中的常量在函數最小化的過程中不起作用，因此我們可以從等式(4)中移除掉常量項，得：

$O b j^{(t)} \approx \sum_{i = 1}^{n} [g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + Ω (f_{t}) (5)$

由於要學習的函數僅僅依賴於目標函數，從等式(5)可以看出只需爲學習任務定義好損失函數，併爲每個訓練樣本計算出損失函數的一階導數和二階導數，通過在訓練樣本集上最小化等式(5)即可求得每步要學習的函數 $f (x)$ ，從而根據加法模型等式(0)可得最終要學習的模型。

XGBoost算法

一顆生成好的決策樹，假設其葉子節點個數爲 $T$ ，該決策樹是由所有葉子節點對應的值組成的向量 $w \in R^{T}$ ，以及一個把特徵向量映射到葉子節點索引 $(I n d e x)$ 的函數 $q : R^{d} \to 1, 2, \dots, T$ 組成的。因此，決策樹可以定義爲 $f_{t} (x) = w_{q (x)}$ 。

決策樹的複雜度可以由正則項 $Ω (f_{t}) = γ T + \frac{1}{2} λ \sum_{j = 1}^{T} w_{j}^{2}$ 來定義，即決策樹模型的複雜度由生成的樹的葉子節點數量和葉子節點對應的值向量的L2範數決定。
定義集合 $I_{j} =$ { $i | q (x_{i}) = j$ }爲所有被劃分到葉子節點j的訓練樣本的集合。等式(5)可以根據樹的葉子節點重新組織爲 $T$ 個獨立的二次函數的和：

$O b j^{(t)} \approx \sum_{i = 1}^{n} [g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + Ω (f_{t}) = \sum_{i = 1}^{n} [g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + γ T + \frac{1}{2} λ \sum_{j = 1}^{T} ω_{j}^{2} = \sum_{j = 1}^{T} [(\sum_{i \in I_{j}} g_{i}) ω_{j} + \frac{1}{2} (\sum_{i \in I_{j}} h_{i} + λ) ω_{j}^{2}] + γ T (6)$

定義 $G_{j} = \sum_{i \in I_{j}} g_{i} ， H_{j} = \sum_{i \in I_{j}} h_{i}$ ，則等式 $(6)$ 可寫爲：

$O b j^{(t)} = \sum_{j = 1}^{T} [G_{i} ω_{j} + \frac{1}{2} (H_{i} + λ) ω_{j}^{2}] + γ T$

假設樹的結構是固定的，即函數 $q (x)$ 確定，令函數 $O b j^{(t)}$ 的一階導數等於0，即可求得葉子節點j對應的值爲：

$ω_{j}^{*} = - \frac{G_{j}}{H_{j} + λ} (7)$

此時，目標函數的值爲：

$O b j = - \frac{1}{2} \sum_{j = 1}^{T} \frac{G_{j}^{2}}{H_{j} + λ} + γ T (8)$

綜上，爲了便於理解，單顆決策樹的學習過程可以大致描述爲：

1)枚舉所有可能的樹結構 $q$ 。
2)用等式(8)爲每個 $q$ 計算其對應的分數 $O b j$ ，分數越小說明對應的樹結構越好。
3)根據上一步的結果，找到最佳的樹結構，用等式(7)爲樹的每個葉子節點計算預測值。

然而，可能的樹結構數量是無窮的，所以實際上我們不可能枚舉所有可能的樹結構。通常情況下，我們採用貪心策略來生成決策樹的每個節點。

1)從深度爲0的樹開始，對每個葉節點枚舉所有的可用特徵。
2)針對每個特徵，把屬於該節點的訓練樣本根據該特徵值升序排列，通過線性掃描的方式來決定該特徵的最佳分裂點，並記錄該特徵的最大收益（採用最佳分裂點時的收益）。
3)選擇收益最大的特徵作爲分裂特徵，用該特徵的最佳分裂點作爲分裂位置，把該節點生長出左右兩個新的葉節點，併爲每個新節點關聯對應的樣本集。
4)回到第1步，遞歸執行到滿足特定條件爲止。

如何計算每次分裂的收益呢？假設當前節點記爲 $C$ ，分裂之後左孩子節點記爲 $L$ ，右孩子節點記爲 $R$ ，則該分裂獲得的收益定義爲當前節點的目標函數值減去左右兩個孩子節點的目標函數值之和： $G a i n = O b j_{C} - O b j_{L} - O b j_{R}$ ，具體地，根據等式(8)可得：

$G a i n = \frac{1}{2} [\frac{G_{L}^{2}}{H_{L} + λ} + \frac{G_{R}^{2}}{H_{R} + λ} - \frac{{(G_{L} + G_{R})}^{2}}{H_{L} + H_{R} + λ}] - γ$

其中，− $γ$ 項表示因爲增加了樹的複雜性（該分裂增加了一個葉子節點）帶來的懲罰。

總結一下GBDT算法

1)算法每次迭代生成一顆新的決策樹

2)在每次迭代開始之前，計算損失函數在每個訓練樣本點的一階導數 $g_{i}$ 和二階導數 $h_{i}$

3)通過貪心策略生成新的決策樹，通過等式(7)計算每個葉節點對應的預測值

4)把新生成的決策樹 $f_{t} (x)$ 添加到模型中： $y_{i}^{t} = y_{i}^{t - 1} + f_{t} (x_{i})$

通常在第四步，我們把模型更新公式替換爲： $y_{i}^{t} = y_{i}^{t - 1} + ϵ f_{t} (x_{i})$ ，其中 $ϵ$ 稱之爲步長或者學習率。增加 $ϵ$ 因子的目的是爲了避免模型過擬合。

機器學習算法的目的

GBDT算法是一種監督學習算法。監督學習算法需要解決如下兩個問題：

$O b j (Θ) = L (Θ) + Ω (Θ)$

$L (Θ)$ ：是損失函數，損失函數儘可能的小，這樣使得目標函數能夠儘可能的符合樣本。
$Ω (Θ)$ ：是正則化函數， 正則化函數對訓練結果進行懲罰，避免過擬合，這樣在預測的時候才能夠更準確。

目標函數之所以定義爲損失函數和正則項兩部分，是爲了儘可能平衡模型的偏差和方差(Bias Variance Trade-off)。
機器學習算法需要最終學習到損失函數儘可能小並且有效的防止過擬合。
以樣本隨時間變化對某件事情發生的變化爲例，如下幾副圖形象的說明了機器學習的作用。
假設隨着時間的變化對K話題存在如下樣本：

如果沒有有效的正則化，則學習結果會如下圖所示：

這種情況下，學習結果跟樣本非常符合，損失函數也非常小，但是這種樣本在預測的時候，由於過擬合，失敗率會很高。
如果損失函數太大，則學習結果如下圖所示：

這種情況，學習結果跟樣本差別太大，損失函數也很大，在預測的時候由於誤差跳大，失敗率也會很高。
損失函數和正則化防止過擬合平衡後的學習結果如下圖所示：

在這種情況下損失函數和正則化函數防止過擬合達到了一個平衡，預測會比較準。