機器學習--XGBoost

原創

2018-08-23 11:29

XGBoost是GBDT改良版，都是通過多個弱學習器，不斷地減少殘差。GBDT主要是對殘差求一階導，向負梯度的方向擬合殘差，而XGBoost運用了泰勒展開，考慮到了二階導數。

每次的迭代都是前面的弱學習器組合上新的學習器，表示爲：

{\hat{y}}_{i}^{(t)} = {\hat{y}}_{i}^{(t - 1)} + f_{t} (x_{i})

目標函數可以表示爲：

l o s s = \sum_{i = 1}^{n} l (y_{i}, {\hat{y}}_{i}^{(t - 1)} + f_{t} (x_{i})) + Ω

其中

Ω

是正則項，爲了防止過擬合，對樹的數量和葉子結點的指加入了懲罰項：

Ω = γ T + \frac{1}{2} λ \sum_{j = 1}^{T} w_{j}^{2}

將

l (y_{i}, {\hat{y}}_{i}^{(t - 1)})

看作是

x

，

f_{t} (x_{i})

看作是

Δ x

，對損失函數進行泰勒展開：

l o s s \approx \sum_{i = 1}^{N} [l (y_{i}, {\hat{y}}_{i}^{(t - 1)}) + g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + Ω

其中

g_{i}

和

h_{i}

分別是一階導和二階導，這個導數取決於選擇什麼損失函數，例如MAE，MSE。

l (y_{i}, {\hat{y}}_{i}^{(t - 1)})

這一項，是由前面的弱學習器組成，不會發生改變，可以看成常數項，然後損失函數可以變成：

l o s s \approx \sum_{i = 1}^{N} （ g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})) + γ T + \frac{1}{2} λ \sum_{j = 1}^{T} w_{j}^{2}

1到N是遍歷樣本，比較繁瑣，把遍歷樣本轉化爲遍歷葉子節點，損失函數變成：

l o s s \approx \sum_{i = 1}^{T} [G_{i} w_{i} + \frac{1}{2} (H_{i} + λ) w_{i}^{2}] + γ T

其中

G_{i}

和

H_{i}

分別是這個葉子節點上所有數據的loss的一階導數和二階導數的和。
然後目標函數對

w_{i}

求偏導數，讓偏導數爲0可以解除每個樹葉節點的值

w_{i}

：

\frac{\partial l o s s}{\partial w_{i}} = - \frac{1}{2} \sum_{i = 1}^{T} \frac{G_{j}^{2}}{H_{j} + λ} + γ T = 0

解得：

w_{i} = - \frac{G_{j}}{H_{j} + λ}

迴帶得到損失函數是：

l o s s = - \frac{1}{2} \sum_{i = 1}^{T} \frac{G_{i}^{2}}{H_{i}^{2} + λ} + γ T

與AdaBoost不同的是，AdaBoost基分類器用的是CART決策樹，分隔的標準是gini係數，XGBoost則是用這個推出來的損失函數進行分隔。
讓這個損失函數下降越多越好，也就是

\frac{G^{2}}{H + λ}

越大越好，所以XGBoost的信息增益是：

G a i n = \frac{1}{2} [\frac{G_{L}^{2}}{H_{L} + λ} + \frac{G_{R}^{2}}{H_{R} + λ} - \frac{(G_{L} + G_{R})^{2}}{H_{L} + H_{R} + λ}] - γ

因爲每次分隔會多出一個樹，所以要減去

γ

。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.