提升方法就是從弱學習算法出發,反覆學習,得到一系列弱分類器,然後組合得到一個強學習分類器。
提升策略
- 如何改變訓練數據集的權重或者概率分佈?
提高那些被前一輪弱分類器錯誤分類樣本的權重。 - 如何將弱學習分類器組合成一個強學習分類器?
採取加權表決的方法,加大分類誤差率小的弱分類器的權值。
算法細節
- 初始訓練數據權值分佈
- 使用具有權值分佈的訓練數據集學習,得到基學習器
- 計算在訓練集上的分類誤差率
- 計算的係數,通過最小化指數損失函數求導得到。
- 更新訓練數據集的權值分佈
其中, 是規範化因子
它使成爲一個概率分佈。 - 構建基本分類器的線性組合
從而得到最終的分類器
整體算法流程
-
假設訓練數據集具有均勻的權值分佈。這樣可在原始數據上學習基本分類器,
-
計算基本分類器在加權訓練數據集上的分類誤差率:
-
計算基本分類器的係數,表示在最終分類器中的重要性。表示在最終分類器中的重要性,當時,,並且隨着的減小而增大,所以分類誤差率越小的基分類器在最終分類器中的作用越大。
-
更新數據集的權值分佈。
被基分類器誤分類樣本的權值得以擴大,而被正確分類樣本的權值得以縮小。 -
使用當前分佈加權的訓練數據集,學習基本分類器。
-
重複上述步驟,直至分類器在訓練數據集上的誤分類點爲0。
- 係數表示了基本學習器的重要性,所有的之和並不爲0。
- 的符號決定實例的類,的絕對值表示分類的確信度。
參考文獻:《統計學習方法》第8章