1. 梯度提升決策樹概述
梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)是以決策樹爲基學習器的一種Boosting算法,它在每一輪迭代中建立一個決策樹,使當前模型的殘差在梯度方向上減少;然後將該決策樹與當前模型進行線性組合得到新模型;不斷重複,直到決策樹數目達到指定的值,得到最終的強學習器。
上一篇博客【機器學習】集成學習——Boosting與AdaBoost原理詳解與公式推導對AdaBoost算法做了總結,GBDT與AdaBoost的主要區別有:
1. 迭代策略不同:AdaBoost在每一輪迭代中都要更新樣本分佈;GBDT迭代學習上一輪得到的加法模型與真實值之間的殘差,它並不顯式改變樣本分佈,而是利用殘差變相地增大錯誤樣本的權重。
2. 組合策略不同:AdaBoost中誤差率越低的基學習器在最終模型中所佔比重越高,而GBDT每棵樹的權值都相等。
3. 基學習器限定不同:AdaBoost的基學習器不限,使用最廣泛的是決策樹和神經網絡;而GBDT的基學習器限定爲決策樹,且是迴歸樹。
4. 損失函數不同:AdaBoost分類算法的損失函數限定爲指數損失,而GBDT可以是指數損失函數和對數似然函數。
2. 提升樹
在介紹梯度提升決策樹之前,我們首先來介紹提升樹。
介紹了提升方法本身是採用加法模型和前向分步算法的一種方法,而提升樹(Boosting Tree)是以決策樹爲基學習器的一種提升方法,對分類問題決策樹是二叉分類樹,對迴歸問題決策樹是二叉迴歸樹。
提升樹模型可以表示爲決策樹的加法模型:
(1)
其中,表示第棵決策樹;是的參數;是決策樹個數。
根據前向分步算法,第步將要得到的提升樹模型爲:
(2)
其中,爲當前模型。那麼第輪迭代的目標是得到能最小化的損失函數的第棵決策樹的參數,即:
(3)
對於二類分類問題,只要把AdaBoost中的基分類器限定爲二類分類樹即可。可以說這時的提升樹是AdaBoost的特殊情況。
對於迴歸問題,當採用平方誤差損失函數時,第次迭代的損失是:
(4)
當時,損失最小。也就是說,第次迭代的優化目標是擬合當前模型的殘差。
3. 梯度提升決策樹原理
在提升方法中,每次迭代的優化問題可以分爲兩部分:一、求葉結點區域;二、給定葉結點區域,求區域內最優擬合值。
對於第二個問題,它是一個簡單的“定位”估計,最優解很容易得到;但對於第一個問題,當損失函數不是平方誤差和指數損失,而是一般損失函數時,求解區域是困難的,最小化損失函數問題的簡單、快速求解算法是不存在的。
針對這一問題,梯度提升決策樹利用最速下降法來近似求解加法模型中的每一顆決策樹,具體來說,就是在每次迭代中,使新建的決策樹都沿損失函數減少最快的方向——負梯度方向減少損失函數。
當前模型的負梯度爲:
(5)
當損失函數是平方誤差時,當前模型的負梯度就等於殘差,沿負梯度方向減少損失函數就相當於擬合殘差。
但當損失函數不是平方誤差時,負梯度就是殘差的近似值,稱爲“廣義殘差或僞殘差”。例如,當損失函數是絕對誤差時,負梯度是殘差的符號函數,因此在每次迭代時,決策樹將擬合當前殘差的符號。
總之,GBDT利用廣義殘差來擬合每一輪迭代中的迴歸樹。
一些廣泛應用的損失函數的梯度如下表:
4. GBDT迴歸算法
下面介紹GBDT迴歸算法,也可以當做GBDT的通用算法。必須聲明的是,無論是GBDT分類算法還是迴歸算法,弱學習器都是迴歸樹,這是由殘差本質決定的。
輸入:訓練集,其中,;損失函數。
過程:
(1)初始化模型,估計使損失函數最小化的常數值,初始模型是隻有一個根結點的樹。
(2)對迭代輪次
(a)對樣本,計算當前模型的廣義殘差:
(b)利用擬合一棵迴歸樹,得到第棵樹的葉結點區域;
(c)對每個葉結點區域,計算能使區域損失函數最小化的最佳預測值:
(d)得到本輪迭代最佳擬合迴歸樹:
(e)更新本輪迭代的加法模型:
(3)得到最終的強學習器:
輸出:迴歸樹。
5. 二元GBDT分類算法
在分類任務中,由於樣本輸出是離散值,無法從輸出類別擬合殘差,因此使用類別的預測概率值和真實概率值的差來當做殘差。
GBDT分類算法的損失函數可以取指數損失函數和對數似然函數,如果選擇指數損失函數,則GBDT退化爲AdaBoost。因此我們這裏只討論對數似然損失函數。
二元分類的對數似然損失函數是:
(6)
負梯度爲:
(7)
利用擬合一棵迴歸樹,得到第棵樹的葉結點區域;
每個葉結點區域的最佳預測值爲:
(8)
由於上式比較難優化,我們用近似值代替:
(9)
除了負梯度計算和葉子節點最佳預測值計算不同,其他都與迴歸算法一致。
得到最終的模型後,用來進行概率估計得到:
(10)
(11)
6. GBDT優缺點
優點:
1. 可以靈活處理混合型數據(異構特徵);
2. 強大的預測能力;
3. 在輸出空間中對異常點的魯棒性(通過具有魯棒性的損失函數實現,如Huber損失函數和分位數損失函數)。
缺點:
1. 在更大規模的數據集或複雜度更高的模型上的可擴展性差;
2. 由於提升算法的有序性,因此很難做到並行。
參考文獻:
1. 《統計學習方法》第八章提升方法——李航
2. 《統計學習基礎》第十章提升和加法樹——Trevor Hastie等
3. 論文《Greedy Function Approximation: A Gradient Boosting Machine》——Jerome H. Friedman
5. GBDT原理詳解