随机森林

随机森林

原創

绿岛小微米

2020-02-24 05:22

*********************随机森林概述***************************

在我们学习随机森林前，要对决策树有一定了解，尤其对其中决策树生成算法要做理解，详见博客。

森林顾名思义，由很多棵树组成，这一颗颗树就是我们需要构造的决策树，由这些树组成的森林就是随机森林，

当我们输入一个要预测分类的数据时，每个决策树都会接收数据并产生一个分类结果，然后采用‘投票机制’，认为哪个结果出现次数最多就归为哪一类。

*********************随机森林构造过程**********************

随机森林构造过程分为四步：随机样本的选取，随机选择特征，构建决策树，随机森林投票分类

1.随机样本的选取

我们采用bootstrap自助法进行样本选择，假设有训练数据有N个,我们有放回的采取N个样本，构成新的训练集。简单来说，就是取样N次，每次随机选取一个样本后，再放回，直至选取够N个样本。每次构造决策树时都要进行一次随机样本的选取。

2.随机选择特征

对于每颗要生成的决策树，我们要从p维的特征中选取m个特征来进行构造，m的取值关系到决策树之间的关联性，m大关联性就大，误差就大，所以m选取一般要比p小，一般都选在p的平方根

3.构建决策树

这一步我们可以参考博客中的决策树算法，可以采用信息熵或者GINI系数作为分裂特征的选择，关于构建多少颗树，一般选择在100左右，有关详见http://www.docin.com/p-1188586178.html，注意我们得到的决策树可以不进行剪枝，因为前面两个随机选择，使得树在一定程度上能减轻过拟合，但不能完全消除过拟合，过拟合和样本质量，样本数量，样本特征数量和特征相关性都有关系。

4.随机森林投票

当所有决策树构造完成时，我们的随机森林就形成了，现在就可以对要预测的数据进行分类，采用专家投票机制，选定出现次数最多的类别作为预测的类别

******************随机森林的优缺点***************************

优点：

它能够处理很高维度（feature很多）的数据，并且不用做特征选择；
由于随机选择样本导致的每次学习决策树使用不同训练集，所以可以一定程度上避免过拟合；

缺点：

随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合；
对于有不同级别的属性的数据，级别划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

钉钉打卡速度慢

Nginx R31 doc 官方文档-01-nginx 如何安装

Qt/C++音视频开发74-合并标签图形/生成yolo运算结果图形/文字和图形合并成一个/水印滤镜

挑战程序设计竞赛 2.2章习题 POJ - 3617 Best Cow Line 贪心

字节面试：MySQL什么时候锁表？如何防止锁表？

.NET8连接SQL SERVER 2008 R2 报：证书链是由不受信任的颁发机构颁发的

golang开发环境搭建(win10)

python计算机视觉学习笔记——PIL库的用法

Golang初学：获取程序内存使用情况，std runtime

插值法-解決數據預處理中的缺失

決策樹-Cart生成和剪枝算法

GBDT(生)

python-關於函數間參數傳遞問題(注意理解，很容易混淆)

PCA降維的原理及步驟

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結