集成学习 -- 概述(一)

hello,致打开该内容的读者:
该部分内容,我将会写成一个专题,围绕集成学习内容,我将会对集成学习做一个基本概述,然后介绍集成学习中的bagging、随机森林、boosting、GBDT、xgboost和lightGBM等内容
你的收获:在看完该系列专题,对集成学习的前世今生有一个更深刻的认识。

参加过或者了解过类似天池比赛、kaggle比赛的小伙伴,应该都听过比赛大杀器,什么xgboost、lightGBM等,那么他们怎么使用,又是怎么发展起来,在该系列内容中,我们一起学习该部分内容,为自己后期集成学习打下良好的基础,让我们不仅仅知其然,还知其所以然。
首先,我们一起看一下到底什么是集成学习,以及其基本分类。

1 什么是集成学习

image-20200108143846871

集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。

2 复习:机器学习的两个核心任务

  • 任务一:如何优化训练数据 —> 主要用于解决欠拟合问题
  • 任务二:如何提升泛化性能 —> 主要用于解决过拟合问题

集成学习的目的就是用于解决上面提出的两个问题。

3 集成学习中boosting和Bagging

集成学习的第一个问题就是如何得到若干个个体学习器。这里我们有两种选择。

  • 第一种就是所有的个体学习器都是一个种类的,或者说是同质的。比如都是决策树个体学习器,或者都是神经网络个体学习器。
  • 第二种是所有的个体学习器不全是一个种类的,或者说是异质的。比如我们有一个分类问题,对训练集采用支持向量机个体学习器,逻辑回归个体学习器和朴素贝叶斯个体学习器来学习,再通过某种结合策略来确定最终的分类强学习器。

目前来说,同质个体学习器的应用是最广泛的,一般我们常说的集成学习的方法都是指的同质个体学习器。而同质个体学习器使用最多的模型是CART决策树和神经网络。同质个体学习器按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间存在强依赖关系,一系列个体学习器基本都需要串行生成,代表算法是boosting系列算法,第二个是个体学习器之间不存在强依赖关系,一系列个体学习器可以并行生成,代表算法是bagging和随机森林(Random Forest)系列算法。

image-20200108143935631

tips: 只要单分类器的表现不太差,集成学习的结果总是要好於单分类器的

本节内容主要宏观介绍了什么是集成学习,以及集成学习的基本分类。
在下一节我们将会揭开集成学习中bagging和随机森林的神秘面纱。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章