原理介紹：

（1）初始化訓練數據（每個樣本）的權值分佈：如果有N個樣本，則每一個訓練的樣本點最開始時都被賦予相同的權重：1/N。
（2）訓練弱分類器。具體訓練過程中，如果某個樣本已經被準確地分類，那麼在構造下一個訓練集中，它的權重就被降低；相反，如果某個樣本點沒有被準確地分類，那麼它的權重就得到提高。同時，得到弱分類器對應的話語權。然後，更新權值後的樣本集被用於訓練下一個分類器，整個訓練過程如此迭代地進行下去。
（3）將各個訓練得到的弱分類器組合成強分類器。各個弱分類器的訓練過程結束後，分類誤差率小的弱分類器的話語權較大，其在最終的分類函數中起着較大的決定作用，而分類誤差率大的弱分類器的話語權較小，其在最終的分類函數中起着較小的決定作用。換言之，誤差率低的弱分類器在最終分類器中佔的比例較大，反之較小。

算法流程：

（1）初始化訓練數據的權值分佈：給每個訓練樣本（x1,x2,….,xN）分配權重，初始權重w1均爲1/N。

D1 = {w11，w12，....，w1i，.....，w1N}， i = 1，2，3, ..... , N 　w1i = 1/N

（2）對於要生成M個基學習器，則對於m = 1,2,.....,M:

（a）、針對帶有權值的樣本進行訓練，得到模型Gm（初始模型爲G1）：

$G_{m}(x) : \chi \rightarrow\{-1,+1\}$

( b )、計算Gm(x)在訓練數據集上的分類誤差率：

$e_{m}=P\left(G_{m}(x) \neq y\right)=\sum_{i=1}^{N} w_{m i} I\left(G_{m}\left(x_{i}\right) \neq y_{i}\right)$

上式還可以寫爲：

$e_{m}=P\left(G_{m}(x) \neq y\right)=\sum_{G_{m}\left(x_{i}\right) \neq y_{i}} w_{m i}$

#這裏，Wmi表示第m輪中第i個實例的權值，Wm1+Wm1+......+Wmn = 1，這表明，Gm（x）在加權的訓練數據集上的分類誤差率是被Gm（x）誤分類樣本的權值之和，由此可以看出數據權值分佈Dm與基本分類器Gm(x)的分類誤差率的關係

(c)、計算基學習器Gm(x)的係數:+

$\alpha_{m}=\frac{1}{2} \log \frac{1-e_{m}}{e_{m}}$ #這裏的對數是自然對數

（d)、更新訓練數據集的權重分佈： $D_{m+1}=\left\{w_{m+1,1}, \ldots, w_{m+1, i}, \ldots, w_{m+1, N}\right\}$

$w_{m+1, j}=\frac{w_{m i}}{Z_{m}} \exp \left(-\alpha_{m} y_{i} G_{m}(x)\right)=\left\{\begin{array}{l}{\frac{w_{m i}}{Z_{m}} \exp \left(-\alpha_{m}\right), G_{m}\left(x_{i}\right)=y_{i}} \\ {\frac{w_{m i}}{Z_{m}} \exp \left(\alpha_{m}\right), G_{m}\left(x_{i}\right) \neq y_{i}}\end{array}\right.$

其中Zm爲：

$Z_{m}=\sum_{i=1}^{N} \alpha_{m} \exp \left(-\alpha_{m} y_{i} G_{m}(x)\right)$

（3）構建基本分類器的線性組合：

$f(x)=\sum_{m=1}^{M} \alpha_{m} G_{m}(x)$

得到最終的分類器：

$G(x)=\operatorname{sign}(f(x))=\operatorname{sign}\left(\sum_{m=1}^{M} \alpha_{m} G_{m}(x)\right)$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Adaboost

原理介紹：

算法流程：

sm4加密工具類

關於Python中groupby，merge，concat的運用和這幾個函數之間的區別

卡方檢驗解釋

python slots方法使用

支持向量機SMO算法

神經網絡的 batch normalition

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結