集成學習系列：

Gradient Boosted Decision Tree（梯度提升決策樹）

上一篇介紹了 $R a n d o m F o r e s t$ ，該算法利用 $Bagging$ 中的 $bootstrap$ 機制得到不同的 $Decision Tree$ ，然後將這些 $Decision Tree$ 融合起來。除了基本的 $Bagging$ 和 $Decision Tree$ 之外， $Random Forest$ 還在 $decision tree$ 中加入了更多的隨機性。有了這些機制之後，我們發現這個算法可以利用 $OOB$ 數據做 $self validation$ ，進一步結合 $self validation$ 的機制和 $permutation test$ 的做法我們利用 $random forest$ 來做 $feature selection$ 。

提升方法 $(b o o s t i n g)$ 的代表性算法是 $AdaBoost$ 。提升樹是以分類或者回歸樹爲基本學習器的提升方法。由於樹的線性組合可以很好的擬合訓練數據，即使數據中的輸入和輸出之間的關係很複雜也沒關係，所以提升樹是一個高功能的學習算法。本篇討論針對不同問題的提升樹學習算法。其主要的區別在於使用的損失函數不同，首先介紹使用指數損失的分類問題，此時的提升樹算法只需要將 $Adaboost$ 算法的弱分類器設置爲加了限制的二分類樹即可，可以說提升樹算法用於分類是 $Adaboost$ 的特殊情況。接下來介紹提升樹算法損失函數爲平方損失時候的迴歸問題，之後我們會發現對迴歸問題的提升樹算法來說，只需要在每一輪使得弱學習器來簡單的擬合當前模型的殘差就好了。提升樹利用加法模型和前向分步算法實現優化過程，當損失函數爲平方損失或者是指數損失時分別爲我們上述討論的迴歸問題和分類問題。但是對於一般的損失函數而言，每一步的優化並不簡單。這樣便有了梯度提升算法。其關鍵是利用損失函數的負梯度在當前模型的值作爲迴歸問題提升樹算法中的殘差的近似值來進行迴歸樹的擬合。

1 - 提升樹模型

1.1 - 提升樹用於分類-Adaboost的特殊情況

先再回顧下 $random forest$ 的算法的形式：外層是一個 $bagging$ ，可以使用 $bootstrap$ 的方式來得到不同的 $g_{t}$ ，內層是一個加了更多 $randomness$ 的 $randomized-decision tree$ 。
再回憶下 $adaboost$ 算法的步驟：在這個算法中，每一輪每一個樣本被賦予一個權重 $u_{n}^{(t)}$ ，算法通過最小化被 $u_{n}^{(t)}$ 加權的 $E_{i n}$ 來得到 $g_{t}$ ，再計算 $g_{t}$ 的權重 $α_{t}$ 來融合得到最終的 $G$ 。

我們之前將 $decision tree$ 搭配 $bagging$ 得到了 $random forest$ ，同樣地，我們可以將 $decision tree$ 搭配 $adaboost$ 得到 $boosting tree$ 提升樹算法。但是現在我們需要面對的一個新的問題是，在算法 $boosting tree$ 中，決策樹作爲弱學習器是處理不了加權的數據的，而在 $adaboost$ 中每一輪的數據都是帶有權重的數據，也就是 $adaboost$ 中的 $base algorithm$ 要能夠解決如下的最小化問題：

m i n i m i z e E_{i n}^{u} = \frac{1}{N} \sum_{n = 1}^{N} u_{n} \cdot e r r (y_{n}, h (x_{n}))

因爲 $decision tree$ 有很多種實現，有很多技巧在裏面。所以我們決定將 $decision tree$ 當做是一個黑盒子，我們不再要求這個黑盒子可以處理加權的數據，而是對加權的數據本身做處理，使之變爲不加權的數據然後餵給 $decision tree$ 。

其實這一點是很容易做到，權重是從 $bagging$ 中的 $bootstrap$ 中得到的，在做 $bootstrap$ 的時候，得到了幾份 $(x_{n}, y_{n})$ ，那麼 $(x_{n}, y_{n})$ 的權重就是幾： $(x_{n}, y_{n})$ 的權重是3代表抽取到了3份 $(x_{n}, y_{n})$ ，權重是4代表抽取到了4份 $(x_{n}, y_{n})$ ，所以權重就代表了在資料中有幾份 $(x_{n}, y_{n})$ 的複製。所以我們就可以根據 $bootstrap$ 的計算機制得到的權重 $u_{n}^{(t)}$ 先對資料進行抽樣，這樣就得到了一筆新的大小爲 $N^{'}$ 資料 ${\tilde{D}}_{t}$ ，在這筆資料中就隱含了權重的信息。現在看來，在 $bagging$ 中我們是先 $bootstrap$ ，通過得到的樣本數量獲得權重；現在在 $boosting tree$ 中，我們利用了這個過程的逆過程，根據權重來得到樣本的數量，這樣做的目的是爲了不改變底層的 $decision tree$ 算法。

所以在 $boosting tree$ 中，我們沒有更改 $decision tree$ 的部分，沒有更改 $adaptive boosting$ 的部分，而是在中間的環節按照樣本的權重做了一個抽樣的過程得到新的資料 ${\tilde{D}}_{t}$ 然後餵給 $decision tree$ 。

boosting tree

：

A d a B o o s t + s a m p l i n g \propto u^{(t)} + D e c i s i o n T r e e ({\tilde{D}}_{t})

1.2 - 提升樹的一些改進

在 $a d a b o o s t$ 中，當得到了一個 $g_{t}$ 的時候，我們下一步需要作出的決定是這個 $g_{t}$ 該以多大的權重加入到 $G$ 中。這個權重我們記爲 $α_{t}$ ， $α_{t}$ 的計算公式如下：

α_{t} = l n ⧫_{t} = l n \sqrt{\frac{1 - ϵ_{t}}{ϵ_{t}}}

其中

ϵ_{t}

指的是

g_{t}

的錯誤率。

這樣可能會出現一個問題：
如果我們用於訓練的資料完全是不同的，那麼一棵完全長成的決策樹的 $E_{i n}$ 就是 $0$ ，那麼 $E_{i n}^{u} = 0$ ，那麼 $ϵ_{t} = 0$ ，所以 $α_{t} = \infty$ 。所以在這種情況下，最終只是得到了一棵“最好”的樹，這就違背了我們的大主題： $a g g r e g a t i o n$ 。
問題出在哪裏呢？因爲我們把所有的數據都餵給了算法，並且算法能得到的是一個完全長成的樹。所以如果要解決這個問題的話，有兩個方面可以着手：

不要把所有的數據都餵給算法；
對決策樹構造算法做一些限制；

通過這樣的技巧我們就可以得到一棵“弱”一點的樹。其實我們通過 $bootstrap$ 抽樣已經做到了不將所有的數據都餵給算法。另外通過採用簡單的策略，例如限制決策樹的高度也可以得到一棵比較“弱”的樹。

所以在實際的應用中，提升樹通常是如下的形式：原來的 $adaboost$ 算法的框架下，根據權重進行採樣 $sampling$ ，從而得到隱含有權重意義的數據 ${\tilde{D}}_{t}$ ，並且通過這樣的採樣方式也可以避免得到一棵所謂“最好”的樹，然後將 ${\tilde{D}}_{t}$ 餵給 $decision tree$ ，但是 $d e c i s i o n t r e e$ 的構造要加一點限制，通常是限制樹的高度，也就是利用數據 ${\tilde{D}}_{t}$ 構造一棵 $pruned decision tree$ 。

boosting tree

：

A d a B o o s t + s a m p l i n g \propto u^{(t)} + p r u n e d D e c i s i o n T r e e ({\tilde{D}}_{t})

1.3 - 提升樹實例

上面提到在 $boosting tree$ 算法中，決策樹在構造的時候需要限制樹的高度，得到一些“弱”一點的樹，再和 $adaboost$ 搭配起來。我們考慮一種極端的情況，如果我們限制樹的高度小於等於1，此時的決策樹變爲決策樹樁。那麼 $adaboost$ 和這樣的 $decision tree （ h e i g h t <= 1 ）$ 搭配起來會是什麼樣子的呢？其實這個時候的 $boosting tree$ 就退化爲了 $boosting stump$ 。

因爲針對每一個樣本集合，這時 $d e c i s i o n t r e e （ C A R T ）$ 需要做的就只是選擇一個分支條件 $b (x)$ 將樣本集合劃分爲兩個子樹。其劃分的依據就是要使得劃分之後的數據的不純度最低：

b (x) = \underset{d e c i s i o n s t u m p h (x)}{a r g m i n} \sum_{c = 1}^{2} | D_{c} w i t h h | \cdot i m p u r i t y (D_{c} w i t h h)

這個時候就幾乎不會出現 $ϵ = 0$ 的情況， 那麼這個時候也不見得會做抽樣，而是直接在 $d e c i s i o n s t u m p$ 中考慮權重。

所以簡單來說，提升樹用於分類只是將 $AdaBoost$ 算法框架中的弱分類器限制爲二類分類樹即可。

2 - 優化視角下的Adaboost

2.1 - Adaboost的指數損失函數

這一小節通過分析得到 $AdaBoost$ 算法的損失函數是實際上是指數損失 $L = e x p (- y s)$ 。並且可以證明， $AdaBoost$ 算法是前向分步算法在損失函數爲指數函數時的加法模型。

首先我們回憶一下 $AdaBoost$ 中每一個樣本的權重的計算公式， $u_{n}^{(t + 1)}$ 是根據 $u_{n}^{(t)}$ 計算得到的。如果該樣本劃分不正確，那麼 $u_{n}^{(t + 1)} = u_{n}^{(t)} \cdot ⧫_{t}$ ；如果該樣本劃分正確，那麼 $u_{n}^{(t + 1)} = u_{n}^{(t)} / ⧫_{t}$ 。我們再來審視一下這個更新規則：樣本劃分不正確的意思就是： $y_{n} \neq g_{t} (x_{n})$ ；樣本劃分正確的意思就是： $y_{n} = g_{t} (x_{n})$ 。那麼權重 $u$ 的更新規則就變爲：

u_{n}^{(t + 1)} = u_{n}^{(t)} \cdot ⧫_{t}^{- y_{n} g_{t} (x_{n})}

而

α_{t} = l n (⧫_{t}) = l n (\sqrt{\frac{1 - ϵ_{t}}{ϵ_{t}}})

，所以

⧫_{t} = e^{α_{t}}

更新規則進一步變爲：

u_{n}^{(t + 1)} = u_{n}^{(t)} \cdot e x p (- y_{n} α_{t} g_{t} (x_{n}))

通過這樣的表達我們看到樣本 $(x_{n}, y_{n})$ 最終的權重 $u_{n}^{(T + 1)}$ 和初始的 $u_{n}^{(1)}$ 的關係如下：

u_{n}^{(T + 1)} = u_{n}^{(1)} \cdot \prod_{t = 1}^{T} e x p (- y_{n} α_{t} g_{t} (x_{n})) = \frac{1}{N} \cdot e x p (- y_{n} \sum_{t = 1}^{T} α_{t} g_{t} (x_{n}))

我們將 $\sum_{t = 1}^{T} α_{t} g_{t} (x)$ 稱爲 $voting score$ 。因爲最後我們需要根據這個分數加一個 $s i g n$ 的操作來做分類的決定，即我們最終得到的模型是： $G (x) = s i g n (\sum_{t = 1}^{T} α_{t} g_{t} (x))$ 。從上面的式子可以看出 $AdaBoost$ 中的每一個數據點的權重 $u_{n}^{(T + 1)}$ 正比於負 $y_{n}$ 和 $voting score$ 的乘積的 $exponential$ 。

我們知道 $AdaBoost$ 是 $linear blending$ 的延伸，也就是要將 $g$ 線性的融合在一起。在 $linear blending$ 中我們可以將整個過程分爲兩步：1. 將所有的 $g$ 當做是一個特徵轉換；2. 將特徵轉換之後的結果使用一個線性的模型融合起來。

$l i n e a r b l e n d i n g = l i n e a r m o d e l + h y p o t h e s i s a s t r a n s f o r m$

G (x_{n}) = s i g n (\sum_{t = 1}^{T} \underset{w_{t}}{\underset{⏟}{α_{t}}} \underset{ϕ_{t} (x_{n})}{\underset{⏟}{g_{t} (x_{n})}})

因爲 $g_{t} (x_{n})$ 可以視爲特徵轉換，我們將其記爲 $ϕ_{t} (x_{n})$ ，將每一個 $g_{t} (x_{n})$ 的權重記爲 $w_{t}$ 。這時， $v o t i n g s c o r e$ 就變成了 $w^{T} Φ (x_{n})$ 。這樣我們就得到了一個我們比較熟悉的形式，因爲在硬間隔的 $SVM$ 中： $m a r g i n = \frac{y_{n} \cdot (w^{T} ϕ (x_{n}) + b)}{| | w | |}$ ，表示這個數據點距離邊界有多遠。所以在這裏 $v o t i n g s c o r e$ （雖然和上面的相比少了一些項）也是某一種距離，也是某一種 $m a r g i n$ ，也是在某一個空間中這個點到分割線的距離的一種衡量。

所以 $y_{n} \cdot (v o t i n g s c o r e)$ 就相當於在 $S V M$ 中的沒有歸一化的 $m a r g i n$ ，也可以說是函數間隔。結合我們對 $SVM$ 的認識，我們希望 $y_{n} \cdot (v o t i n g s c o r e)$ 越大越好，即首先這個值要是個正的，正值保證了劃分的正確性；其次要儘量的大，這樣就能有更大的置信區間或者說更大的 $margin$ 。所以我們就會希望 $e x p (- y_{n} (v o t i n g s c o r e))$ 越小越好。也就是每一個數據點的權重 $u_{n}^{(T + 1)}$ 要越小越好。

通過上面的分析我們知道 $A d a B o o s t$ 想要達到 $l a r g e m a r g i n$ 的效果，就是要努力的使所有的 $y_{n} \cdot (v o t i n g s c o r e)$ 變大，就是要使所有的 $e x p (- y_{n} (v o t i n g s c o r e))$ 變小。就是要最小化 $\sum_{n = 1}^{N} u_{n}^{(T + 1)}$ ，現在可以將 $adaboost$ 的損失函數定義爲：

\begin{matrix} (1) & L = \sum_{n = 1}^{N} u_{n}^{(T + 1)} = \frac{1}{N} \sum_{n = 1}^{N} e x p (- y_{n} \sum_{t = 1}^{T} α_{t} g_{t} (x_{n})) \end{matrix}

所以得到了 $A d a B o o s t$ 的損失函數爲指數損失函數。

2.2 - 又一個0/1誤差的上界

畫出 $0/1 error$ 和 $AdaBoost error$ 的曲線發現， $e x p o n e n t i a l e r r o r$ （圖中的曲線）是 $0 / 1 e r r o r$ （圖中的折線）的一個上限。我們之前就碰到過 $0 / 1 e r r o r$ 的一些上限， $SVM$ 的 $hinge error (m a x (1 - s y, 0))$ ， $logistic regression$ 的 $scale cross entropy (l n (1 + e x p (- y s)))$ 都是 $0 / 1 e r r o r$ 的上限，我們之前都是利用這些上限將 $0 / 1 e r r o r$ 做到最小，從而將分類問題做好。

現在我們從另一個角度看到 $A d a b o o s t$ 通過最小化 $\sum_{n = 1}^{N} u_{n}^{(T + 1)}$ 以使得得到的邊界有 $l a r g e m a r g i n$ 的效果，所以 $a d a b o o s t$ 算法在函數

\begin{matrix} (2) & \sum_{n = 1}^{N} e x p (- y_{n} \sum_{t = 1}^{T} α_{t} g_{t} (x_{n})) \end{matrix}

上做最小化，我們就將 $(2)$ 定義爲 $a d a b o o s t e r r o r m e a s u r e$ 。最終通過最小化 $e r r_{\hat{a d a}}$ 將 $e r r_{0 / 1}$ 做到最好。

$e r r_{0 / 1} (s, y) = | [y s \leq 0] |$
$e r r_{\hat{a d a}} (s, y) = e x p (- y s)$

在 $A d a B o o s t$ 中既然我們想要所有的樣本點的權重越小越好，也就是想要最後的權重的總和越小越好，也就是要在上式 $(1)$ 中做最小化。 $A d a B o o s t$ 就是要做如下的一個最優化的問題：

\underset{h}{m i n} E_{A D A} = \frac{1}{N} \sum_{n = 1}^{N} e x p (- y_{n} \sum_{t = 1}^{T} α_{t} g_{t} (x_{n}))

解決上述最優化問題利用的工具是梯度下降法，梯度下降法的思路基本上是：當想要最小化一個函數的時候，可以看看從當前的點出發往哪個方向 $v$ 走一小步會使得結果變好。通常的方法是在該點附近使用泰勒公式進行展開，之後通過分析可以得到能使得函數變小的最好的方向就是負梯度的方向。沿着這個方向走一個小小的步長 $η$ ，這樣就離我們的目標更近了一步。

泰勒展開

\begin{matrix} (3) & \underset{| | v | | = 1}{m i n} E_{i n} (w_{t} + η v) \approx E_{i n} (w_{t}) + η v^{T} ▽ E_{i n} (w_{t}) \end{matrix}

現在如果我們想要找一個函數 $g_{t}$ 當做方向，（向量和函數在本質上是一樣的。當操作的對象是向量的時候，我們根據下標 $i n d e x$ 可以得到向量中的值；當操作的對象是函數的時候，我們根據輸入 $x$ 可以得到函數的輸出值，所以向量的 $i n d e x$ 是整數，函數的 $i n d e x$ 是實數。這樣看來，函數就是無限維度的向量）。在 $g r a d i e n t d e s c e n t$ 中，我們想要找一個好的向量方向，沿着這個向量方向走一個步長 $η$ 來做最優化；在這裏我們想要找一個好的函數 $h (x)$ ，沿着這個函數走一個步長 $η$ 來做最優化。
當前的 $a d a b o o s t$ 已經得到函數是 $\sum_{τ = 1}^{t - 1} α_{τ} g_{τ} (x_{n})$ , 所以就是要在 $\sum_{τ = 1}^{t - 1} α_{τ} g_{τ} (x_{n})$ 上加一個好的函數 $h (x_{n})$ （向量方向）和步長 $η$ 的乘積 $η h (x_{n})$ 來使得最終的結果變好一點。

\begin{matrix} (4) & \underset{h}{m i n} \hat{E_{a d a}} = \frac{1}{N} \sum_{n = 1}^{N} e x p (- y_{n} (\sum_{τ = 1}^{t - 1} α_{τ} g_{τ} (x_{n}) + η h (x_{n}))) \end{matrix}

現在我們要想辦法將

(4)

變成

(3)

的形式，

\begin{aligned} \underset{h}{m i n} \hat{E_{a d a}} & = \frac{1}{N} \sum_{n = 1}^{N} e x p (- y_{n} (\sum_{τ = 1}^{t - 1} α_{τ} g_{τ} (x_{n}) + η h (x_{n}))) \\ = \frac{1}{N} \sum_{n = 1}^{N} e x p ((- y_{n}) \sum_{τ = 1}^{t - 1} α_{τ} g_{τ} (x_{n})) \cdot e x p (- y_{n} η h (x_{n})) \\ = \sum_{n = 1}^{N} u_{n}^{(t)} e x p (- y_{n} η h (x_{n})) \\ \overset{t a y l o r}{\approx} \sum_{n = 1}^{N} u_{n}^{(t)} (1 - y_{n} η h (x_{n})) \\ = \sum_{n = 1}^{N} u_{n}^{(t)} - η \sum_{n = 1}^{N} u_{n}^{(t)} y_{n} h (x_{n}) \end{aligned}

泰勒展開式： $e x p (x) = 1 + x + \frac{x^{2}}{2!} + \frac{x^{3}}{3!} + \cdot + \frac{x^{N}}{N!} + \dots$

通過上面的操作得到了和在 $g r a d i e n t d e s c i e n t$ 中類似的形式，現在我們的目標是要找到一個好的 $h$ 來最小化 $\sum_{n = 1}^{N} u_{n}^{(t)} (- y_{n} h (x_{n}))$ 。對於二分類問題來說：

\begin{aligned} (1) & \sum_{n = 1}^{N} u_{n}^{(t)} (- y_{n} h (x_{n})) \\ (2) & = & \sum_{n = 1}^{N} u_{n}^{(t)} {\begin{aligned} - 1 i f y_{n} = h (x_{n}) \\ 1 i f y_{n} \neq h (x_{n}) \end{aligned} \\ (3) & = & - \sum_{n = 1}^{N} u_{n}^{(t)} + \sum_{n = 1}^{N} u_{n}^{(t)} {\begin{aligned} 0 i f y_{n} = h (x_{n}) \\ 2 i f y_{n} \neq h (x_{n}) \end{aligned} \\ (4) & = & - \sum_{n = 1}^{N} u_{n}^{(t)} + 2 E_{i n}^{u^{(t)}} \cdot N \end{aligned}

我們的出發點是要找到一個好的 $h (x)$ 讓 $\sum_{n = 1}^{N} u_{n}^{(t)} (- y_{n} h (x_{n}))$ 變小，經過上面的推導發現想要讓 $\sum_{n = 1}^{N} u_{n}^{(t)} (- y_{n} h (x_{n}))$ 變小的就要讓 $E_{i n}^{u^{(t)}}$ 變小。能夠使得 $E_{i n}^{u^{(t)}}$ 變小的正是 $a d a b o o s t$ 中的 $b a s e a l g o r i t h m$ 算法 $A$ 。所以 $b a s e a l g o r i t h m$ 找到了一個好的函數方向。我們原來認爲 $A$ 找到的 $g_{t}$ 只是爲了讓 $E_{i n}^{u^{(t)}}$ 變小，現在經過這樣的推導發現，這個 $g_{t}$ 是一個能夠讓 $E_{\hat{a d a}}$ 變小的函數方向。

$a d a b o o s t$ 通過大概的最小化 $\hat{E_{a d a}} = \sum_{n = 1}^{N} u_{n}^{(t)} e x p (- y_{n} η h (x_{n}))$ 得到了一個好的函數（方向），按照 $g r a d i e n t d e s c e n t$ 的做法，現在要做的就是沿着這個方向走一小步。但是在這裏我們不僅僅滿足於只走一小步，而是想要走一大步。也就是說在 $g_{t}$ 被固定了之後，想要選擇一個最大的 $η$ 來使得 $\hat{E_{a d a}}$ 最小：

\underset{η}{m i n} \hat{E_{a d a}} = \sum_{n = 1}^{N} \underset{◯}{\underset{⏟}{u_{n}^{(t)} e x p (- y_{n} η g_{t} (x_{n}))}}

那麼怎麼來得到這個最好的步長

η

呢？

當 $y_{n} = g_{t} (x_{n})$ 的時候， $◯ = u_{n}^{(t)} e x p (- η)$
當 $y_{n} \neq g_{t} (x_{n})$ 的時候， $◯ = u_{n}^{(t)} e x p (+ η)$

\hat{E_{a d a}} = (\sum_{n = 1}^{N} u_{n}^{(t)}) \cdot ((1 - ϵ) e x p (- η) + ϵ_{t} e x p (+ η))

對

η

求導來得到最優解:

\frac{\partial \hat{E_{a d a}}}{\partial η} = 0 ⟶ η_{t} = l n \sqrt{\frac{1 - ϵ_{t}}{ϵ}} = α_{t}

所以這樣看來， $a d a b o o s t$ 使用 $b a s e a l g o r i t h m A$ 來得到一個最好的函數方向，當最好的函數方向 $g_{t}$ 得到之後， $a d a b o o s t$ 給這個 $g_{t}$ 一個權重或者說是票數 $α_{t}$ ，現在我們知道了這個由 $a d a b o o s t$ 給出的權重 $α_{t}$ 是一個最佳問題的解。所以 $a d a b o o s t$ 通過也可以稱爲 $s t e e p e s t d e s c e n t w i t h a p p r o x i m a t e f u n c t i o n a l g r a d i e n t$ 。

3 - Gradient Boosting

上一小節對 $adaboost$ 做了另一種解釋， $adaboost$ 的每一輪可以看做是在最小化 $exponential error$ ：在每一輪中首先找出一個 $h$ ，將這個 $h$ 作爲 $g_{t}$ ；然後再決定要沿着這個 $g_{t}$ 走多遠的距離，這個距離會變成 $g_{t}$ 的權重 $α_{t}$ 。所以一共有兩個最佳化的過程：一個是對 $h$ 的最佳化過程，一個是對 $η$ 的最佳化過程。

\begin{matrix} (1) & \underset{η}{m i n} \underset{h}{m i n} \frac{1}{N} \sum_{n = 1}^{N} e x p (- y_{n} (\sum_{τ = 1}^{t - 1} α_{t} g_{τ} (x_{n}) + η h (x_{n}))) \end{matrix}

這樣的概念可以不可以用在不同的 $error function$ 上呢？也就是說不再僅僅只是 $(1)$ 中的 $exponential error$ 。例如如果我們想做的是 $l o g i s t i c r e g r e s s i o n$ 的話，我們關注的 $e r r o r$ 是 $c r o s s e n t r o p y e r r o r$ ，如果我們想做的是 $r e g r e s s i o n$ 的話，我們關注的 $e r r o r$ 是 $s q u a r e d e r r o r$ 。

3.1 - 前向分步算法優化加法模型

基於上述的討論，將 $（ 1 ）$ 式進行擴展，將 $e r r$ 換掉，不再侷限於使用 $e x p o n e n t i a l e r r o r$ ，而是可以使用任何我們感興趣的 $e r r o r f u n c t i o n$ 。

\begin{matrix} (1) & \underset{η}{m i n} \underset{h}{m i n} \frac{1}{N} \sum_{n = 1}^{N} e r r (\sum_{τ = 1}^{t - 1} α_{t} g_{τ} (x_{n}) + η h (x_{n}), y_{n}) \end{matrix}

這是一個新的 $a g g r e g a t i o n$ 的模型：從當前已經得到的模型 $\sum_{τ = 1}^{t - 1} α_{t} g_{τ} (x_{n})$ 出發，沿着 $h (x_{n})$ 走步長 $η$ ，目的是爲了讓 $e r r$ 變小，所以同樣的在每一輪都是做兩件事：先決定一個好的方向 $h$ 作爲 $g_{t}$ ，然後決定要沿着這個 $g_{t}$ 更新多遠得到步長 $η$ 並作爲權重 $α_{t}$ 將 $g_{t}$ 融入到最中的 $G$ 中。所以這樣的模型很像是 $a d a b o o s t$ 只不過是對 $a d a b o o s t$ 做了延伸，我們稱之爲 $g r a d i e n t B o o s t$ ，由不同的 $e r r o r f u n c i t o n$ 就可以解決不同的問題例如 $r e g r e s s i o n$ 或者是 $s o f t c l a s s i f i c a t i o n$ 。

3.2 - 提升樹用於迴歸

當我們想要使用 $boosting tree$ 做 $r e g r e s s i o n$ 的時候應該怎麼做呢？我們關心的是 $s q u a r e d e r r o r$ ： $e r r (s, y) = (s - y)^{2}$

\underset{η}{m i n} \underset{h}{m i n} \frac{1}{N} \sum_{n = 1}^{N} e r r (\underset{s_{n}}{\underset{⏟}{\sum_{τ = 1}^{t - 1} α_{τ} g_{τ} (x_{n})}} + η h (x_{n}), y_{n})

我們將使用當前已經得到的模型 $\sum_{τ = 1}^{t - 1} α_{τ} g_{τ} (x_{n})$ 對樣本 $x_{n}$ 做出的預測結果記爲 $s_{n}$ ，我們的目的就是要從 $s_{n}$ 出發沿着某個 $h (x_{n})$ 更新某個步長 $η$ 來使得 $e r r$ 變小。所以第一步我們首先找一個最好的 $h (x)$ 作爲 $g_{t}$ ：

\begin{aligned} \underset{h}{m i n} \frac{1}{N} \sum_{n = 1}^{N} e r r (s_{n} + η h (x_{n}), y_{n}) \\ \overset{t a r l o r}{\approx} \underset{h}{m i n} \frac{1}{N} \sum_{n = 1}^{N} e r r (s_{n}, y_{n}) + \frac{1}{N} \sum_{n = 1}^{N} η h (x_{n}) \frac{\partial e r r (s, y_{n})}{\partial s} |_{s = s_{n}} \\ = \underset{h}{m i n} \underset{◯}{\underset{⏟}{c o n s t a n t s + \frac{η}{N} \sum_{n = 1}^{N} h (x_{n}) 2 (s_{n} - y_{n})}} \end{aligned}

我們現在是要找一個 $h (x_{n})$ 來使得 $◯$ 最小，那麼易知當 $h (x_{n}) = - \infty \cdot (s_{n} - y_{n})$ 的時候，上式可以取得最小。因爲首先 $- (s_{n} - y_{n})$ 保證了結果是負數，再乘以一個 $\infty$ ，就是負的無窮大，這是最直觀的該最小化問題的解。但是因爲在這裏 $h (x_{n})$ 相當於一個方向，所以應該對其長度進行一下限制，這樣就可以避免出現 $- \infty$ 。並且長度的問題最後交給步長 $η$ 來解決。
基於以上的討論我們應該解決的問題是：

\underset{| | h | | = 1}{m i n} c o n s t a n t s + \frac{η}{N} \sum_{n = 1}^{N} h (x_{n}) 2 (s_{n} - y_{n})

但是這樣的話變成了需要求解一個有條件 $| | h | | = 1$ 的最佳化問題，因爲我們並不在乎 $h$ 的大小，所以我們將其作爲一個懲罰項放入目標函數中的，只是限制使得 $h (x)$ 不要太大即可，新的問題變爲：

\begin{aligned} \underset{h}{m i n} c o n s t a n t s + \frac{η}{N} \sum_{n = 1}^{N} (2 h (x_{n}) (s_{n} - y_{n}) + h (x_{n})^{2}) \\ = c o n s t a n t s + \frac{η}{N} \sum_{n = 1}^{N} (c o n s t a n t + (h (x_{n}) - \underset{r e s i d u a l}{\underset{⏟}{(y_{n} - s_{n})}})^{2}) \end{aligned}

$y_{n}$ 是目標值， $s_{n}$ 是目前給出的預測值，我們將 $y_{n} - s_{n}$ 定義爲殘差 $r e s i d u a l$ 。爲了達到最小化的目的，就是要找一個 $h$ ，使得對於所有的樣本來說， $h (x_{n})$ 和 $(y_{n} - s_{n})$ 儘可能的接近，即 $h (x_{n})$ 和 $(y_{n} - s_{n})$ 的均方誤差要儘可能的小。

所以我們迴歸問題的提升樹只要在每一輪都擬合當前模型的殘差就好了，即在數據 ${(x_{n}, y_{n} - s_{n})}$ 上做一個 $r e g r e s s i o n$ 就好了。

所以當我們使用 $g r a d i e n t b o o s t$ 來做 $r e g r e s s i o n$ 的時候，我們需要利用 $b a s e a l g o r i t h m$ 在 $r e s i d u a l$ 數據 ${(x_{n}, y_{n} - s_{n})}$ 上找一個好的 $g_{t}$ （方向）；而在 $a d a b o o s t$ 中的 $b a s e a l g o r i t h m$ 是根據加權的數據 ${x_{n}, y_{n}}$ 來找到一個好的 $g_{t}$ 。

在上一步中我們知道了怎麼找到一個好的 $g_{t}$ 了，也就是要求解一個 $r e g r e s s i o n$ 問題來擬合 $x_{n}$ 和 $y_{n} - s_{n}$ ，現在的問題是，當找到了一個好的 $g_{t}$ 之後，我們要怎麼決定這個 $g_{t}$ 的權重 $η$ 呢？同樣是求解如下的一個最優化的問題：

\underset{η}{m i n} \frac{1}{N} \sum_{n = 1}^{N} (s_{n} + η g_{t} (x_{n}) - y_{n})^{2} = \frac{1}{N} \sum_{n = 1}^{N} (\underset{r e s i d u a l}{\underset{⏟}{(y_{n} - s_{n})}} - η g_{t} (x_{n}))^{2}

爲了最小化我們需要求解的是一個在數據集 ${(g_{t} (x_{n}), r e s i d u a l)}$ 上的單變量 $η$ 的線性迴歸問題。所以當使用 $g r a d i e n t b o o s t$ 來做 $r e g r e s s i o n$ 的時候，在需要求解 $g_{t}$ 的權重 $α_{t}$ 的時候是使用 $g_{t}$ 來做一個特徵轉換，然後求解一個簡單的 $l i n e a r r e g r e s s i o n$ 。

把以上討論的東西都合在一起就得到了一個算法我們稱之爲 $G r a d i e n t B o o s t e d D e c i s i o n T r e e (G B D T)$ 。剛剛只是講解了 $g r a d i e n t b o o s t e d$ ，這裏的 $d e c i s i o n t r e e$ 用做 $b a s e l e a r n e r$ 。

$G r a d i e n t B o o s t e d D e c i s i o n T r e e (G B D T)$
$f o r r e g r e s s i o n$
$s_{1} = s_{2} = \dots = s_{N} = 0$
$f o r t = 1, 2, \dots, T$
1. $o b t a i n g_{t} b y A ({(x_{n}, y_{n} - s_{n})}) w h e r e A i s a (s q u a r e d e r r o r) r e g r e s s i o n a l g o r i t h m$
2. $c o m p u t e α_{t} = O n e V a r L i n e a r R e g r e s s i o n ({(g_{t} (x_{n}), y_{n} - s_{n})})$
3. $u p d a t e s_{n} ⟵ s_{n} + α_{t} g_{t} (x_{n})$
$r e t u r n G (x) = \sum_{}^{} α_{t} g_{t} (x)$

因爲初始的 $s_{1} = s_{2} = \dots = s_{N} = 0$ ，所以在第一輪的時候 $b a s e l e a r n e r$ ，這裏是用 $d e c i s i o n t r e e$ 做的是一個正常的 $r e g r e s s i o n$ ，從第二輪之後纔在數據 ${(x_{n}, y_{n} - s_{n})}$ 上做 $r e g r e s s i o n$ 。在得到了 $g_{t}$ 之後我們要想辦法得到一個 $α_{t}$ ，這時就是在 ${(g_{t} (x_{n}), y_{n} - s_{n})}$ 上做一個單變量的迴歸問題。當計算完成之後，就需要對每一個樣本的分數進行更新， $s_{n} ⟵ s_{n} + α_{t} g_{t} (x_{n})$ 。這樣做了 $T$ 輪之後就可以得到一堆 $d e c i s i o n t r e e$ 最後得到 $G$ 。

通過上述的推導可以引出 $gradient boosting$ 。到現在爲止我們分析了提升樹算法的損失函數爲指數損失函數和平方誤差損失函數的情況，但是對於一般的損失函數而言，優化的過程並不是這麼簡單的。針對這一問題 $Feridman$ 提出了梯度提升（ $gradient boosting$ ）。其關鍵有點類似提升樹用於迴歸的推導：利用損失函數的負梯度在當前模型的值作爲迴歸問題提升樹中的殘差的近似值，以此來擬合一個迴歸樹。

r_{n} \approx - [\frac{\partial L (y, f (x_{i}))}{\partial f (x_{i})}]_{f (x) = f_{m - 1} (x)}

4 - Summary of Aggregation Models

4.1 - Blending Models

用於當手頭已經有了一些 $g_{t}$ 的時候，將它們進行集成，集成的方式有如下的三種：

$u n i f o r m$ ：每一個 $g_{t}$ 都是同樣的地位，可以通過 $v o t i n g$ 或者是 $a v e r a g i n g$ 來進行集成。
$n o n$ - $u n i f o r m$ ：如果每一個 $g_{t}$ 有不同的重要性的時候，可以將這些 $g_{t}$ 看成是特徵轉換，然後再餵給一個 $l i n e a r m o d e l$ 來學習每一個 $g_{t}$ 的權重。
$c o n d i t i o n a l$ ：如果要在不同的情況下使用不同的 $g_{t}$ ，同樣將每一個 $g_{t}$ 看成是特徵轉換，只是在第二個階段的學習當中，使用 $n o n l i n e a r m o d e l$ 而不是 $l i n e a r m o d e l$ 。這樣的模型稱爲 $s t a c k i n g$ 。

通過 $u n i f o r m$ 的方式，不同的 $g_{t}$ 會取長補短，相互修正，得到的模型比較穩定。通過 $n o n u n i f o r m$ 或者是 $c o n d i t i o n a l$ 的方式可以得到比較複雜的模型，但是要小心 $o v e r f i t t i n g$ 的風險。

4.2 - Aggregation-Learning Modeling

$l e a r n i n g$ 指的是我們還沒有 $g$ ，我們要邊學 $g$ 邊考慮怎麼樣對它們進行集成，

$B a g g i n g$ ：通過 $b o o t s t r a p$ 機制來得到不同的 $g_{t}$ ，然後通過 $u n i f o r m$ 的形式進行集成
$A d a B o o s t$ ： $a d a b o o s t$ 通過更新每一筆資料的權重的方式來得到很不一樣的 $g_{t}$ ，在得到了 $g_{t}$ 之後依據它們的表現來決定其在最終的 $G$ 中的權重 $α_{t}$ 。從最佳化的角度來說， $g_{t}$ 是能夠使得 $e r r o r$ 降低的最好的方向，類似於梯度下降中的負梯度方向，這個權重可以理解爲要在 $g_{t}$ 的方向上更新的最大的步長。
$D e c i s i o n T r e e$ ：通過尋找不同的特徵劃分數據，最後在不同的條件下使用不同的 $g$ 。
$G r a d i e n t B o o s t$ ：將 $a d a b o o s t$ 延伸到 $g r a d i e n t b o o s t$ ，不同於 $a d a b o o s t$ ，在學習 $g$ 的時候不是通過更新樣本的權重，例如在 $r e g r e s s i o n$ 的時候，是對 $r e s i d u a l$ 進行擬合從而得到好的 $g$ 。

4.3 - Aggregation of Aggregation Models

$decision tree + bagging$ 可以得到 $random forest$
$decision tree + adaboost$ 可以得到 $boostin tree$
$decision tree + gradient boost$ 可以得到 $gradient boost decision tree$

4.4 - Specialty of Aggregation Models

爲什麼 $a g g r e g a t i o n$ 這樣的模型可以表現的很好呢？主要由於兩個方面的原因：首先 $a g g r e g a t i o n$ 解決了 $u n d e r f i t t i n g$ ，因爲集成了很多的 $g$ 的表現，可以把這些 $g$ 看成是對原始特徵不同的 $f e a t u r e t r a n s f o r m$ ；另一個方面來說當集成了很多的 $g$ 之後，會得到一個比較“中庸”的結果， $a g g r e g a t i o n$ 達到了 $r e g u l a r z a t i o n$ 的效果，

5 - 總結

這篇的主要內容是 $G r a d i e n t B o o s t e d D e c i s i o n T r e e$ 。首先先講述瞭如何將 $a d a b o o s t$ 和 $d e c i s i o n t r e e$ 進行搭配來得到 $a d a b o o s t d e c i s i o n t r e e$ ，爲此引入了 $s a m p l i n g a n d p r u n i n g$ 來得到一棵棵比較弱的 $d e c i s i o n t r e e$ ，這樣 $a d a b o o s t$ 和 $d e c i s i o n t r e e$ 的組合才能發揮最大的效果。之後我們使用 $o p t i m i z a t i o n$ 的角度來重新的看 $a d a b o o s t$ ，發現 $a d a b o o s t$ 每一次找到一個 $g_{t}$ 就是找了一個好的方向，這個 $g_{t}$ 的權重 $α_{t}$ 其實就是一個適當的步長。我們將這個模型延伸得到了 $g r a d i e n t b o o s t i n g$ ，引入不同種類的 $e r r o r$ ，經過推導發現當 $g r a d i e n t b o o s t i n g$ 用於 $r e g r e s s i o n$ 的時候其實 $b a s e l e a r n e r$ 是在做一個 $r e s i d u a l f i t t i n g$ 。

_席達_

發佈了109 篇原創文章 · 獲贊 102 · 訪問量 40萬+

他的留言板關注

機器學習筆記-Gradient Boosted Decision Tree

Gradient Boosted Decision Tree（梯度提升決策樹）

1 - 提升樹模型

1.1 - 提升樹用於分類-Adaboost的特殊情況

1.2 - 提升樹的一些改進

1.3 - 提升樹實例

2 - 優化視角下的Adaboost

2.1 - Adaboost的指數損失函數

2.2 - 又一個0/1誤差的上界

3 - Gradient Boosting

3.1 - 前向分步算法優化加法模型

3.2 - 提升樹用於迴歸

4 - Summary of Aggregation Models

4.1 - Blending Models

4.2 - Aggregation-Learning Modeling

4.3 - Aggregation of Aggregation Models

4.4 - Specialty of Aggregation Models

5 - 總結

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

機器學習筆記-Gradient Boosted Decision Tree

機器學習筆記-Blending and Bagging

機器學習筆記-Kernel Logistic Regression

機器學習筆記-Regularization

word2vec安裝使用筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結