二、决策树(Decision Tree)

二、决策树(Decision Tree)

算法基本思想:根据数据集中数据的特征进行逐步的推理、判断,从而达到分类或预测的目的。决策树属于图解法,因为类似于树的结构,因此成为决策树。常见的决策树算法有ID3、C4.5以及CART。

算法举例:

         在构造决策树时,我们需要解决的第一个问题就是,当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到决定性的特征,划分出最好的结果,我们必须评估每一个特征,完成测试后,原始数据集就被会分为几个数据子集。这些数据子集会分布在第一个决策点的所有分支上。如果某个分支下的数据属于同一类型,则当前无需阅读的垃圾邮件已经正确地划分数据分类,无需进一步对数据集进行分割。如果数据子集内的数据不属于同一类型,则需要根据下一层特征重复划分数据子集,直到所有具有相同类型的数据均在一个数据子集内。

算法的优缺点及适用范围

优点:计算复杂度不高,输入结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据;

缺点:可能会产生过度匹配问题;

使用数据类型:数值型和标称型。

相关问题

划分数据集的最大原则是:将无序的数据变得更加有序。组织杂乱无章数据的一种方法就是使用信息论度量信息,信息论是量化处理信息的分支科学。

信息增益:在划分数据集之前之后信息发生的变化称为信息增益,知道如何计算信息增益,我们就可以计算每个特征划分数据集获得的信息增益,获得信息增益最高的特征就是最好的选择。

如果待分类的数据可能划分在多个分类之中,则符号xi的信息定义为:

其中是选择该分类的概率。

         熵,就是所有类别所有可能值包含的信息期望值:

参考知识:

熵在信息论中的定义如下:

如果有一个系统S内存在多个事件 , 每个事件的机率分布 ,则每个事件本身提供的信息量为

称为自信息。(若对数函数以2为底,单位是比特(bit);若对数函数以e为底,单位为奈特(nat);若对数函数以10为底,单位为哈特(hartly)。)

如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的信息量为


而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为


这些事件的自信息的均值:


称为熵。则,所有字母的平均信息量为


则,常用汉字的平均信息量为


这个平均消息量就是消息熵。

 

算法流程


生成树可以根据递归的方法生成

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章