《統計學習》筆記(1)-- 提升方法Adaboost

提升方法的基本思路
(1)基本思想:對於一個複雜任務來說,將多個專家的判斷進行適當的綜合所得出的判斷,要比其中任何一個專家單獨的判斷好。
(2)強可學習、弱可學習、概率近似正確PAC學習框架。
(3)在PAC學習的框架下, 強可學習和弱可學習是等價的,但是弱學習算法比強學習算法更容易被發現。
(4)提升方法就是從弱學習算法出發,反覆學習,得到一系列弱分類器,然後組合這些弱分類器,構成一個強分類器。
(5)提升方法的兩個主要問題:①在每一輪如何改變訓練數據的權值或概率分佈;②如何將弱分類器組合成一個強分類器。
(6)AdaBoost對主要問題的解決思路是:①每一輪中,提高那些被前一輪弱分類器錯誤分類樣本的權值,降低那些被正確分類樣本的權值;②弱分類器的組合採取加權多數表決的方法,也就是加大分類誤差率小的弱分類器的權值,減小分類誤差率大的弱分類器的權值。

提升樹
(1)提升樹是以分類樹或迴歸樹爲基本分類器的提升方法。
(2)提升方法實際採用加法模型與前向分步算法,以決策樹爲基函數的提升方法稱爲提升樹。
(3)對分類問題決策樹是二叉分類樹,對迴歸問題決策樹是二叉迴歸樹。
(4)對於二類分類問題,提升樹算法只需將AdaBoost算法中的基本分類器限制在二分類樹即可,可以說這時的提升樹算法是AdaBoost算法的特殊情況。
(5)在迴歸提升樹中,每一輪的擬合數據都是上一輪計算得到的殘差。在誤差要求滿足的情況下,可以停止計算下去。
(6)針對提升樹中使用一般損失函數導致的優化難問題,Freidman提出了梯度提升算法,這是利用最速下降法的近似問題,其關鍵是利用損失函數的負梯度在當前模型的值作爲迴歸問題提升樹算法中的殘差的近似值,擬合一個迴歸樹。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章