随机森林 Random Forest, RF(集成学习+决策树)

     随机森林是通过集成学习的思想将多棵决策树  集成的一种算法,它的基本单元是决策树 ,而它的本质是属于机器学的一大分支——集成学习(Ensemble Learning)。

     随机森林的直观解释:每棵决策树都是一个分类器,那么对于一个输入样本,N棵树会有N个分类结果,随机森林集成了所有分类投票的结果,将投票次数最多的类别指定为最终的输出,这是一种最简单的Bagging的思想。

     每棵树的生成规则:

  1. 如果训练集大小为N,对于每棵树而言,随机且有放回 地从训练集中抽取N个训练样本(这种采样方式称为bootstrap sample),作为该数的训练集。
  2. 如果每个样本的特征维度为M,指定一个常数m<=M,随机地从M个特征中选取m个特征子集,每次树进行分裂时,从这m个特征中选择最优的。
  3. 每棵树都尽量最大程度的生长,并且没有剪枝过程

    解释:

  1. “随机且有放回地抽样” 的原因:a. 如果不进行“随机”抽样 ,则每棵树的训练集都是一样的,那么最终训练出来的树分类结果是完全一样的,这样就没有了投票的必要。b.如果不进行“有放回”的抽样,那么每棵树的训练样本都是不同的,都是没有交集的,这样的每棵树都是“有偏的”,都是绝对“片面的”,也就是说每棵树训练出来有很大的差异,而随机森林最后分类取决于多棵树(弱分类器)的投票表决,这种表决应该是“求同”,因此使用完全不同的训练集来训练每棵树这样对最终结果是没有帮助的。
  2. “随机森林”名字的来历:a."随机":"随机抽样"和"随机选取特征"这两个随机的引入对随机森林的分类性能非常重要。由于它的引入,使得随机森林不容易过拟合,并且具有很好的抗噪能力。b. “森林”:一棵叫做树,那么成百上千棵就可以叫做森林了,这是集成思想的体现。

     优点:

  1.   在当前所有算法中,具有极好的准确率
  2.   能够有效地应用在大数据集上
  3.   能处理具有高维特征的输入样本,而且不需要降维
  4.   能评估各个特征在分类问题上的重要性
  5.   对于缺省值问题也能够获得很好的结果
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章