從決策樹到XGBoost

原創

2019-03-22 18:35

XGBoost介紹

文章目錄

XGBoost介紹

五.前向分步算法

六.XGBoost算法

一.決策樹

If-Else規則的集合，將樣本遞歸地劃分到對應的子空間，實現樣本的分類。

二.信息增益和信息增益比

熵：
$H(X)=-\sum_{i=1}^np_i\log p_i$
信息增益：
$g(D,A)=H(D)-H(D|A)$

$H(D|A)=\sum_{i=1}^{|A|}\frac{|D_i|}{|D|}H(D_i)$
信息增益比
$g_R(D,A)=\frac{g(D,A)}{H_A(D)}$

$H_A(D)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\log_2\frac{|D_i|}{|D|}$
ID3算法和C4.5算法

大同小異，使用的特徵選擇算法不同而已

三.剪枝

剪枝是通過對損失函數或代價函數進行極小化來實現的。因此，爲了實現簡化樹結構，必須增加對樹結構的懲罰項。
$C_\alpha(T)=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha|T|$

$C_\alpha(T)=C(T)+\alpha|T|$

從模型複雜度與預測正確性之間做出折中。

剪枝條件： $C_\alpha(T_A)\leq C_\alpha(T_B)$ (After, Before)

四.CART算法

classification and regression tree.

迴歸樹

迴歸樹模型可表示爲：
$f(x)=\sum_{m=1}^Mc_mI(x\in R_m)$
用平方誤差作爲迴歸樹對訓練數據的預測誤差：
$\sum_{x_i\in R_m}(y_i-f(x_i))^2$
切分點確定：

遍歷切分點(j, s)，最優化：
$\min_{j,s} \left[ \min_{c_1}\sum_{x_i\in R_1(j,s)}(y_i-c_1)^2+ \min_{c_2}\sum_{x_i\in R_2(j,s)}(y_i-c_2)^2 \right]$

其中j爲屬性，s爲屬性的切分點。

分類樹

特徵選擇：基尼指數
$Gini(p)=\sum_{k=1}^Kp_k(1-p_k)=1-\sum_{k=1}^Kp_k^2$
仍然是每一特徵切爲二類，尋找最優切分點：
$Gini(D,A)= \frac{|D_1|}{|D|}Gini(D_1) + \frac{|D_2|}{|D|}Gini(D_2)$

CART 剪枝

對CART樹而言，其模型代價函數仍可以用：
$C_\alpha(T)=C(T)+\alpha|T|$
來表示。那麼對於書中的某一結點t，以t爲單節點樹的損失函數爲：
$C_\alpha(t)=C(t)+\alpha$
以t爲根節點的模型子樹T_t的損失函數爲：
$C_\alpha(T_t)=C(T_t)+\alpha|T_t|$
當 $\alpha=\frac{C(t)-C(T_t)}{|T_t|-1}$ ，剪枝與不剪枝的損失函數相等，根據奧卡姆剃刀原理，此時傾向於剪枝。

其實，CART剪枝的核心思想就是根據樹的內部節點t,計算：
$g(t)=\frac{C(t)-C(T_t)}{|T_t|-1}$
根據計算得來的各個g值，選擇不同的 $\alpha$ 值，對樹進行剪枝。最後運用交叉驗證方法選擇最優的子樹。

五.前向分步算法

前向分步算法可用加法模型進行表示：
$f(x)=\sum_{m=1}^M\beta_mb(x,\gamma_m)$
在第m步，優化目標爲：
$(\beta_m, \gamma_m)=\arg\min_{\beta, \gamma}\sum_{i=1}^NL(y_i,f_{m-1}(x_i)+\beta b(x_i;\gamma))$

提升樹模型

$f_M(x)=\sum_{m=1}^MT(x,\Theta_m)$

當使用平方損失函數時，在第m步：
$\begin{matrix}\\ L(y,f_m(x))&=&L(y,f_{m-1}(x)+T(x;\Theta_m))\\ &=&[y-f_{m-1}(x)-T(x;\Theta_m)]^2\\ \text{let }r=y-f_{m-1}(x)\\ &=&[r-T(x;\Theta_m)]^2 \end{matrix}$

可以看出，第m步其實僅對前m-1個弱分類器預測給出的殘差做了擬合。

梯度提升樹模型

但是，當損失函數不爲平方損失時， $T(x;\Theta_m)$ 就不能簡單地對殘差進行擬合。爲此，Freidman提出梯度提升樹算法：
$r_m=- \left[ \frac{\partial L(y_i,f(x_i))}{\partial f(x_i)} \right]_{f(x)=f_{m-1}(x)}$
用第m個CART樹對殘差進行擬合。

六.XGBoost算法

對於一個給定的數據集(n rows, m features) $\mathcal D=\{(x_i,y_i)\}(|\mathcal D|=n, x_i\in \mathcal R^m, y_i\in R)$ , 集成樹模型使用K個加法模型預測最終的輸出：
$\hat y_i = \phi(X_i)=\sum_{k=1}^Kf_k(X_i), f_k\in\mathcal F$
在這裏， $\mathcal F=\{f(X)=\omega_q(X)\}(q:\mathcal R^m\rightarrow T,\omega\in \mathcal R^T )$ 代表迴歸樹的空間。 $\mathcal q$ 即代表着將樣本劃分到對應葉子節點的樹結構；T爲樹的葉子節點數目。每一 $f_k$ 代表着獨立的一顆樹的結構以及權重。與決策樹不同的是，迴歸樹的每一葉子節點上包含一個連續的打分，即第 $i$ 個葉子結點的打分爲 $\omega_i$ 。

因此在Xgboost中，通過將樣本在對應葉子節點上的權值累加起來，最終給出分類結果。

XGBoost的算法過程其實就是前向分佈算法的過程，不過XGBoost提出了新的損失函數：
$L(\phi)=\sum_il(\hat y_i, y_i)+\sum_k\Omega(f_k)\\ where\ \Omega(f)=\gamma T+\frac12\lambda||\omega||^2$
將損失函數展開：
$\mathcal L^{t}=\sum_{i=1}^nl(y_i,\hat y_i^{t-1}+f_t(X_i))+\Omega(f_t)$
根據泰勒展開：
$f(x+\Delta x)=f(x)+\frac{f'(x)}{1!}\Delta x+\frac{f''(x)}{2!}\Delta x^2+O(\Delta x^3)$
令 $\Delta x=f_t(X_i)$ ，利用二階展開，利用前t-1步得到的模型給出的損失對第t步的損失進行逼近，得到：
$\mathcal L^{t}\approx\sum_{i=1}^n[l(y_i,\hat y_i^{t-1})+g_if_t(X_i)+\frac12h_if_t^2(X_i)]+\Omega(f_t)$
捨棄常數項，展開正則項：
$\tilde{\mathcal L}^t=\sum_{i=1}^n [ g_if_t(X_i)+ \frac12h_if_t^2(X_i) ]+ \gamma T+\frac12\lambda\sum_{j=1}^T\omega_j^2\\$
將損失函數展開到葉子節點上，令 $I_j=\{i|q(X_i)=j\}$ ：
$\tilde{\mathcal L}^t=\sum_{j=1}^T [ (\sum_{i\in I_j}g_i)w_j+ \frac12(\sum_{i\in I_j}h_i+\lambda)w_j^2 ]+\gamma T$
令 $G_j=\sum_{i\in I_j}g_i, H_j=\sum_{i\in I_j}h_i$ ，對以上損失函數進行求導，在導數爲零時得到損失函數極小值，求得最優權值爲：
$\omega_j^*=-\frac{G_j}{H_j+\lambda}$
將求得的權值代入損失函數：
$\tilde{\mathcal L}^t(q)=-\frac12\sum_{j=1}^T\frac{G_j^2}{H_j+\lambda}+\gamma T$
所以XGBoost的切分點是通過求使得損失函數下降最大的位置得來的：
$\mathcal L_{split}=\frac12 \left[ \frac{G_L^2}{H_L+\lambda}+ \frac{G_R^2}{H_R+\lambda}- \frac{G_I^2}{H_I+\lambda} \right]-\gamma$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

從決策樹到XGBoost

XGBoost介紹

文章目錄

一.決策樹

二.信息增益和信息增益比

三.剪枝

四.CART算法

迴歸樹

分類樹

CART 剪枝

五.前向分步算法

提升樹模型

梯度提升樹模型

六.XGBoost算法

TDengine docker安裝方法

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

Navicat安裝與激活教程

Plex插件Douban metadata agent

統計學習方法 - 第二章 - 感知機

從決策樹到XGBoost

Linux下壓縮與解壓操作總結

在Word中使用UnicodeMath和Latex優雅地輸入線性公式

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結