机器学习理解(六)

9.AdaBoost分类器----有监督学习
AdaBoost也是一种分类算法,它是一种迭代算法,通过训练多个弱分类器,来得到强分类器,利用最终的强分类器来对数据进行分类,它的基本步骤为:
1.赋予每个训练样本相同的权重,训练第一个弱分类器,此时个样本的权重为1/N(N为样本总数),将弱分类器得到的各样本的分类结果与其真实结果进行比较,分类错误的各样本的权重之和即为a,利用如下公式得到第一个弱分类器的权重;

2.训练样本重新赋予不同的权重,若在前一次的弱分类器中得到的分类结果正确,则减小该样本的权重;否则增大该样本的权重,训练第二个弱分类器,将弱分类器得到的各样本的分类结果与其真实结果进行比较,分类错误各样本的误差之和即为a,利用上述公式得到第二个弱分类器的权重;权重的更新公式为 :其中表示前一个弱分类器中样本i的权重,表示当前弱分类器中该样本i的权重,表示前一个弱分类器的权重
3.重复第2步,直至满足迭代结束条件;
4.将新的样本输入到已经训练好的每一个弱分类f器中,将每个弱分类器得到的结果(分类结果可以数值化处理)乘以其自身的权重作为最终结果;如若要对样本j分类,则分类表达式为:

弱分类器可以为决策树,或者设置阈值等分类方法。。。
AdaBoost的损失函数为指数损失函数,即


优点:易于实现;分类准确率较高;没有太多人为定义的参数;
缺点:要进行多次迭代,所需的计算量会比较大;对边缘点比较敏感;


参考博客:数盟微信群


10.最大期望EM算法---无监督学习  相似的还有HMM(隐马尔科夫模型)

EM算法用来在概率参数模型中求得未知参数的最大似然估计,即通过已知参数来求得未知参数,未知的参数即为隐藏变量,它总共有两步:E步和M步
E步:选取一组参数,求出在该参数下未知参数的条件概率值;
M步:结合E步求出的未知参数的条件概率,求出似然函数下界函数的最大值
重复上面两步,直至收敛


关于EM算法,我觉得不是那么理解,也还没有找到比较好的学习资源,我看过的博客都不能让我对这个问题有很好的了解,哎。。。或许是人太笨了。。


参考博客:http://www.cnblogs.com/zhangchaoyang/articles/2623364.html


机器学习算法可以分为如下两种模型:
判别式模型:逻辑线性回归  支持向量机  传统的神经网络  最近邻
生成式模型:高斯模型  LDA  朴素贝叶斯  HMM


机器学习这部分写的差不多了,以后有了新的理解或者学习到了新的知识会持续更新的,下面开始写自己在找实习以及找工作的过程中所做的准备,包括自己的一些心得体会,还有准备的各种资料等等。。。
未完待续。。。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章