提升樹(Boosting Tree)
以決策樹爲基函數的提升方法稱爲提升樹。提升樹對分類問題,提升樹是二叉分類樹,對迴歸問題提升樹是二叉迴歸樹。
提升樹方法實際採用的是加法模型(即基函數的線性組合)與前向分步算法,因此提升樹模型可以表示爲決策樹的加法模型:
其中 表示某一顆決策樹, 是決策樹的參數, 爲決策樹的個數
提升樹算法過程:
假設有數據集 ,
其中
輸出提升樹:
1、初始化
2、對 依次進行循環迭代:
- 計算後一顆樹對前一顆樹的殘差:
- 擬合殘差學習一個迴歸樹,得到
- 更新
3、通過迭代最終得到迴歸提升樹
GBDT
提升樹利用加法模型與前向分佈算法實現學習的優化過程在損失函數式平方損失和指數損失時,每一步優化是很簡單的。
但對一般損失函數而言,往往每一步優化並不那麼容易。
Freidman提出了梯度提升算法,其關鍵是利用損失函數的負梯度在當前模型的值:
其中 是自定義的損失函數, 是殘差, 是迭代而成的決策樹。
作爲迴歸問題提升樹算法中殘差的近似值來擬合一顆迴歸樹。