信息增益生成决策树

原創

代码拖拉鸡

2020-06-12 17:34

首先查看数据集

我们用这个数据集来构造决策树，判断一个新的西瓜是否为好瓜。

决策树的构造

计算数据集的信息熵

首先观察数据集 $D$ ，发现数据集 $D$ 中有好瓜和坏瓜两个类别，其中好瓜占比 $p_1=\frac {8}{17}$ ，坏瓜占比 $p_2=\frac {9}{17}$ ,计算出数据集 $D$ 的信息熵为
$Ent(D)=-\sum_{k=1}^{2}p_klog_2p_k=-(\frac{8}{17}log_2\frac{8}{17}+\frac{9}{17}log_2\frac{9}{17})=0.998$

计算各个属性的信息增益

观察数据集可以发现，西瓜的属性有色泽、根蒂、敲声、纹理、脐部、触感，首先对色泽计算信息增益。

西瓜的色泽有青绿、乌黑和浅白三种情况，青绿记做 $D^1$ ，乌黑记做 $D^2$ ，浅白记做 $D^3$ ;
对于 $D^1$ ,其中正例占 $\frac{3}{6}$ ,对于 $D^2$ ,正例占 $\frac{3}{6}$ ,分别计算它们的信息熵
$Ent(D^1)=-(\frac{3}{6}log_2\frac{3}{6}+\frac{3}{6}log_2\frac{3}{6})=1.000,$
$Ent(D^2)=-(\frac{4}{6}log_2\frac{4}{6}+\frac{2}{6}log_2\frac{2}{6})=0.918,$
$Ent(D^3=-\frac{1}{5}log_2\frac{1}{5}+\frac{4}{5}log_2\frac{4}{5})=0.722.$
计算色泽的信息增益
$\begin{aligned} Gain(D,色泽) &=Ent(D)-\sum_{v=1}^{v=3}\frac{|D_v|}{|D|}Ent(D_v)\\ &=0.998-(\frac{6}{17}*1.000+\frac{6}{17}*0.918+\frac{5}{17}*0.722)\\ &=0.109 \end{aligned}$
用同样的方法可以计算出
$\begin{aligned} &Gain(D,根蒂)=0.143;Gain(D,敲声)=0.141;\\&Gain(D,纹理)=0.381;Gain(D,脐部)=0.289;\\&Gain(D,触感)=0.006 \end{aligned}$
其中纹理的信息增益最大，于是选择纹理作为数据集 $D$ 的划分标准，构造第一级的决策树

决策树算法对每一个分支结点继续进行划分，方法和上一步相同，最后生成的决策树如下

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

信息增益生成决策树

首先查看数据集

决策树的构造

计算数据集的信息熵

计算各个属性的信息增益

Spring Cloud 部署时如何使用 Kubernetes 作为注册中心和配置中心

信息增益生成決策樹

Python爬蟲實現貓眼電影搜索

Python爬蟲實現豆瓣圖書搜索

Python爬蟲爬取淘寶商品信息

爬取淘寶美食信息並進行可視化展示

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結