AdaBoost算法詳解

原創

2019-09-06 21:07

提升方法就是從弱學習算法出發，反覆學習，得到一系列弱分類器，然後組合得到一個強學習分類器。

提升策略

初始訓練數據權值分佈
$D_1 = (w_{11},\dots,w_{1i},\dots,w_{iN}),w_{1i} = \frac{1}{N},i=1,2,\cdots,N$
使用具有權值分佈 $D_m$ 的訓練數據集學習，得到基學習器
$G_m(x) : X\to \{-1,+1\}$
計算 $G_m(x)$ 在訓練集上的分類誤差率
$e_m = \sum_{i=1}^N P(G_m(x_i) \neq y_i) = \sum_{i=1}^N w_{mi}I(G_m(x_i) \neq y_i)$
計算 $G_m(x)$ 的係數，通過最小化指數損失函數求導得到。
$\alpha_m = \frac12\ln\frac{1-e_m}{e_m}$
更新訓練數據集的權值分佈
$D_{mi} = (w_{m+1,1},\dots,w_{m+1,i},\cdots,w_{m+1,N})$
$w_{m+1,i} = \frac{w_{mi}}{Z_m}exp(-\alpha_my_iG_m(x_i)),i=1,2,\cdots,N$
其中， $Z_m$ 是規範化因子
$Z_m = \sum_{i=1}^Nw_{mi}exp(-\alpha_my_iG_m(x_i))$
它使 $D_{m+1}$ 成爲一個概率分佈。
構建基本分類器的線性組合
$f(x) = \sum_{m=1}^M \alpha_mG_m(x)$
從而得到最終的分類器
$G(x) = sign(f(x)) = sign(\sum_{m=1}^M\alpha_mG_m(x))$

假設訓練數據集具有均勻的權值分佈。這樣可在原始數據上學習基本分類器 $G_1(x)$ ，
計算基本分類器 $G_m(x)$ 在加權訓練數據集上的分類誤差率：
$e_m = \sum_{i=1}^N P(G_m(x_i) \neq y_i) = \sum_{i=1}^N w_{mi}I(G_m(x_i) \neq y_i)$
計算基本分類器 $G_m(x)$ 的係數 $\alpha_m$ ， $\alpha_m$ 表示 $G_m(x)$ 在最終分類器中的重要性。 $\alpha_m$ 表示 $G_m(x)$ 在最終分類器中的重要性，當 $e_m \leq \frac12$ 時， $\alpha_m \geq 0$ ，並且 $\alpha_m$ 隨着 $e_m$ 的減小而增大，所以分類誤差率越小的基分類器在最終分類器中的作用越大。
更新數據集的權值分佈。
$w_{m+1,i} = \begin{cases} \frac{w_{mi}}{Z_m}e^{-\alpha_m}, G_m(x_i)=y_i \\ \frac{w_{mi}}{Z_m}e^{\alpha_m}, G_m(x_i)\neq y_i \end{cases}$
被基分類器 $G_m(x)$ 誤分類樣本的權值得以擴大，而被正確分類樣本的權值得以縮小。
使用當前分佈 $D_m$ 加權的訓練數據集，學習基本分類器 $G_m(x)$ 。
重複上述步驟，直至分類器在訓練數據集上的誤分類點爲0。

參考文獻：《統計學習方法》第8章

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.