前向分布算法与Adaboost

原創

2020-06-19 08:14

首先了解一下提升方法的思路：”将多个弱学习模型组合成一个强学习模型，这个强学习模型可以达到比任何一个弱学习模型都要好的预测效果”，那么应该怎样求这个强学习模型，直接就能求出来吗？况且到目前为止连弱学习模型都还没有，那么就必须弄明白怎样来学习弱学习模型，之后又该怎样来组合它们呢？显然第一个问题非常困难，基本上是不可能求解的，而第二个问题前向分布算法给出了答案。

前向分布算法

前向分布算法考虑的问题及解决方案
前向分布算法考虑这样一个问题：”给定一个训练数据集和损失函数，并且弱模型通过权重之和的方式组合成强模型，那么我们怎么来求这些弱模型以及最终的强模型？“
我们用数学化的语言描述一下上面的问题：
给定训练数据集T={(x₁, y₁),(x₂, y₂),…,(x_N, y_N)}和损失函数L(y, f(x))，f(x)是最终的强学习模型，因为弱模型通过权重之和的方式组合成强模型，所以f(x)可以如下表示：

其中b(x;γ_m)是弱学习模型，β_m是弱学习模型的权重系数，γ_m是弱学习模型的参数。
所以前向分布算法考虑的问题是，如何求出所有的β_m和γ_m，即优化如下目标表达式：

显然一次性求出所有的β_m和γ_m基本不可能，所以前向分布算法给出的解决办法是：“利用贪心算法，每一步只学习一个弱模型及其系数，使得当前弱模型和之前所有的弱模型组合后目标表达式取得最优值，最终就可以使得所有弱模型组合后目标表达式取得最优值”。

前向分布算法：
输入：训练数据集T={(x₁, y₁),(x₂, y₂),…,(x_N, y_N)}；损失函数L(y, f(x))
输出：强学习模型f(x)
(1)初始化f₀(x)=0
(2)对m=1, 2 ,…, M

(a)极小化损失函数
(b)更新

(3)最终得到强学习模型f(x)

总之，提升方法告诉我们如何来求一个效果更好模型，那就是将多个弱模型组合起来，这仅仅是一个思路，而前向分布算法就具体告诉我们应该如何来做。

Adaboost算法

Adaboost是提升算法中最具代表性的算法之一，它和前向分布算法有着千丝万缕的联系
，可以这样来说，当前向分布算法的损失函数L(y, f(x))取指数函数时，该前向分布算法就成了Adaboost算法。

Adaboost算法：
输入：训练数据集T={(x₁, y₁),(x₂, y₂),…,(x_N, y_N)}，其中x_i∈Rⁿ , y_i∈{-1, +1}。
输出：最终分类器C(x)
( 1 )初始化训练数据集的权值分布

( 2 )m=1, 2, …, M

( a ) 使用具有权值分布D_m的训练数据集来训练数据，得到一个在加权训练数据集上误差率最小的弱分类器G_m(x)
( b ) 计算弱分类器G_m(x)在训练数据集上的误差率e_m
( c ) 计算弱分类器G_m(x)的系数α_m

这里的对数是自然对数。
( d ) 更新训练数据集的权值分布D_m，得到新的权值分布D_m+1

Z_m是规范化因子，它使得D_m+1也构成一个概率分布即相加之和等于1，如下：

(3)得到强分类器f(x)

(4)得到最终分类器C(x)

Adaboost算法说明：
上述算法步骤(2)中：
( a ) G_m(x)可以是任一种若分类模型，但它必须是当前加权训练数据集上误差率最小的，因为这样才可以使得f_m-1(x) + G_m(x)在指数损失函数上取得最小值，其中f_m-1(x)指的是第 m 次迭代之前的所有弱模型的加权和。后面在分析Adaboost和前向分布算法的关系时，会讲到这个知识。
( b ) 弱分类器G_m(x)在训练数据集上的误差率e_m是被G_m(x)误分类的样本的权值之和，由此可以看出样本权值和误差率的关系。
( c )当误差率e_m≤1/2时，α_m≥0，并且随着e_m的减小，α_m越来越大。由此可以看出，误差率越小的弱分类器的权重越大，那它在最终分类器中的作用就越大。
( d )更新样本权值分布，为下一轮做准备

由此可以看出，正确分类的样本在下一轮中的权重会减小，而误分类的样本在下一轮
中的权重会增大，两者相比，误分类的样本在下一轮中权重被放大e^2αm倍，所以误分类样本在下一轮学习过程中的作用更大。

Adaboost算法和前向分布算法的关系：
现在来证明当前向分布算法的损失函数是指数函数时，其学习操作等价于Adaboost算法。
指数损失函数如下：

证明：
我们知道前向分布算法第m轮的执行过程有两个，如下：
过程(1)：求得α_m和G_m(x)，使得f_m-1(x) + α_m G_m(x)在训练数据集上的指数损失最小，如下所示：

过程(2)：更新
f_m(x) = f_m-1(x) + α_m G_m(x)

现在证明前向分布算法第m轮求出的α_m和G_m(x)就是Adaboost算法中第m轮求出的α_m和G_m(x)，证明过程如下：
上式可以表示为：

其中w_mi=exp(-y_if_m-1(x_i))，它既不依赖与 α 也不依赖于G(x)，所以它与最小化无关，但是它每一轮都要更新。

首先求解G_m(x)，因为w_mi和第m-1轮的强学习模型f_m-1(x)有关，在第m轮时w_mi相当于就是一个定值，对于第m轮的弱学习器G_m(x)分类错误的点有w_mi · e^正值，对于第m轮的弱学习器G_m(x)分类正确的点有w_mi · e^负值，那么第m轮的弱学习器G_m(x)分类错误的点越少，即G_m(x)的误差率越小，目标表达式A就可以取得最小值啦。所以说前向分布算法第m轮求得的弱分类器G_m(x)就是Adaboost第m轮求得的弱分类器G_m(x)，它们都是在当前加权数据集上误差率最小的弱分类器。

其次求解α_m，先将目标表达式A转换成如下形式：

即得到

接着将上面求得的G_m(x)带入B式，然后对α求导并令导数等于0得：

其中，e_m如下表示：

e_m正是第m轮弱学习器G_m(x)的误差率，所以前向分布算法第m轮求得的α_m就是Adaboost第m轮求得的α_m。因为Adaboost更新样本权值分布时做了规范化，所示上式中的分母就为1了，那在计算误差率就只需要计算分子即可。

最后来看一下样本权值的更新，前向分布算法的权值更新公式为w_m,i= exp(-y_if_m-1(x_i))，所以w_m+1,i = exp(-y_i f_m(x_i))，又因为f_m(x_i) = f_m-1(x) + α_mG_m(x)，所以w_m+1,i = exp(-y_i(f_m-1(x) + α_mG_m(x))) = w_m,i · exp(-y_iα_mG_m(x))，这与Adaboost的样本权值更新公式只差了规范化因子，所以前向分布算法的样本权值更新公式和Adaboost的样本权值更新公式是等价的。

综上所述，当前向分布算法的损失函数是指数函数时，其学习操作等价于Adaboost算法。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

前向分布算法与Adaboost

前向分布算法

Adaboost算法

容器中nginx无法使用同一个网络下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

NETCore中实现一个轻量无负担的极简任务调度ScheduleTask

docker使用特定的网络

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

nodejs学习07——API

避免DbContext同时在多个线程调用

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

二分查找(返回查找值的左右邊界索引)

前向分佈算法與Adaboost

按照步長切割字符串形成列表

python計算階乘的兩個函數

前向分佈算法、Adaboost算法、提升樹算法、梯度提升算法、GBDT(梯度提升決策樹)和XGBoost(極限梯度提升)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結