【机器学习】决策树(一)----学习步骤和常用算法ID3以及C4.5

决策树分开两部分，是因为CART算法还是有些麻烦的，对于回归树我还是存在一些问题，希望后面整理的时候能够理清楚。

【学习思想】

决策树的学习思想还是很通俗易懂的。一般我们去买东西，我们会对这个东西的一些特征做一个衡量来决定是否购买，比如我们可能会看这个东西的大小是否合适，如果合适，我们可能会看这个东西的材质是否满意，满意的话我们会继续在意它的价格是否合理。这样一步一步下来，我们就能构造出一个树形模型。不过我们在构造树的时候，第一个选择什么特征作为我们的衡量标准，下一个选择什么特征来衡量，这是一个问题，因此我们要做出特征选择。当我们要买一个新东西(同功用)的时候，我们就可以根据以前生成的树形模型，来判断我们是否会购买。这里买与不买是一个二分类问题，多分类问题与其思想也是一样的，决策树模型可读性很高，且分类速度很快。

【学习步骤】

①特征选择：特征选择即我们用哪个特征来划分空间。我们常用信息增益、信息增益比或基尼系数来作为划分依据。
②决策树的生成：常用算法有ID3，C4.5，CART
②决策树的剪枝：常用方法有极小化决策树整体的损失函数、CART剪枝算法

【①特征选择】

选择最佳划分的度量通常是根据划分后子女节点不纯性的程度。不纯的程度越低，类分布就越倾斜。不纯性度量有熵、基尼、classification error。由于在ID3和C4.5中我们分别是用信息增益和信息增益比，在CART的分类树上是用基尼系数来做特征选择。因此我们要对信息增益、信息增益比以及基尼系数的计算有个了解。

信息增益

输入：训练数据集 $D$ 、特征 $A$
输出：特征A对训练数据集D的信息增益 $g (D, A)$
$1. 数据集 D 的经验熵 H (D)$
　　　 $H (D) = - \sum_{k = 1}^{K} \frac{| C_{k} |}{| D |} l o g_{2} \frac{| C_{k} |}{| D |}$
　　　 $| D | 为训练样本总数， | C_{k} | 为类 C_{k} 的个数$
$2. 特征 A 对数据集 D 的经验条件熵 H (D | A)$
　　　 $H (D | A) = \sum_{i = 1}^{n} \frac{| D_{i} |}{| D |} H (D_{i}) = - \sum_{i = 1}^{n} \frac{| D_{i} |}{| D |} \sum_{k = 1}^{K} \frac{| D_{i k} |}{| D_{i} |} l o g_{2} \frac{| D_{i k} |}{| D_{i} |}$
　　　 $| D_{i k} | 为子集 D_{i} 中类为 C_{k} 的个数， | D_{i} | 为特征 A 的第 i 种取值的个数$
$3. 信息增益$
　　　 $g (D, A) = H (D) - H (D | A)$
　　　

信息增益比

输入：训练数据集 $D$ 、特征 $A$
输出：特征A对训练数据集D的信息增益比 $g_{R} (D, A)$
$1. 数据集 D 关于特征 A 的值的熵 H_{A} (D)$
　　　 $H_{A} (D) = - \sum_{i = 1}^{n} \frac{| D_{i} |}{| D |} l o g_{2} \frac{| D_{i} |}{| D |}$
$2. 信息增益比$
　　　 $g_{R} (D, A) = \frac{g (D, A)}{H_{A} (D)}$

基尼指数

输入：训练数据集 $D$ 、特征 $A$
输出：特征A对训练数据集D的基尼指数 $G i n i (D, A)$
$1. 若样本点属于第一个类的概率是 p ，则概率分布的基尼指数为$
　　　 $G i n i (p) = 2 p (1 - p)$
$此处是二分类情况， C A R T 算法中会将特征的多个取值变为一对多的形$
$式变成二分类，来计算某特征所有取值的 G i n i 指数$

$2. 特征 A 对数据集 D 的基尼指数 G i n i (D, A)$
　　　 $G i n i (D, A) = \frac{| D_{1} |}{| D |} G i n i (D_{1}) + \frac{| D_{2} |}{| D |} G i n i (D_{2})$

【②决策树生成算法】

由于C4.5与ID3的区别只在于特征选择上，因此算法结构是一样的。
C4.5是ID3的改进，因为ID3采用信息增益的方式选择特征，会对某些可取类别(值)数目较多的属性有所偏好(如学号，学号取值很多，其信息增益很大，但实际分类意义不强，不具有泛化能力)

$I D 3$ $/ C 4.5$ 的生成算法：

输入：训练数据集 $D$ ，特征集 $A$ ，阈值 $ε$
输出：决策树 $T$
(1)若 $D$ 中样本全属于同一类别 $C_{k}$ ，则将 $n o d e$ 标记为 $C_{k}$ 类叶节点，返回T；

$就拿《统计学习方法》上例 5.1 中的表来说 (下面举例都是用这个) ，不管$
$前面特征如何，最后的类别全是 “ 是 ” 或全是 “ 否 ” 的话，我们就没有必要$
$做分类了，所以我们会把这一类直接标记为叶节点后结束$

(2)若 $D$ 中样本在 $A$ 上取值相同或 $A = \emptyset$ ，则将 $n o d e$ 标记为叶节点，其类别标记为 $D$ 中样本数量最多的类，返回 $T$ ；

$对于年龄、有工作、有房子、信贷情况这四个特征来说，表中 15 条数据都相同，$
$唯独不同的只有类别。比如年龄都是 “ 中年人 ” ，工作和房子都为 “ 是 ” ，信贷情$
$况都为 “ 一般 ” ，则这些特征对于分类也没有什么作用了，因此也就相当于没有$
$特征可以用于划分，与特征集 A 为空集的意义差不多，所以我们就数一数这些$
$数据中哪个类别最多，就将这个类别标记为叶节点后结束$

(3)若是以上两种情况都未发生，那么计算 $A$ 中各特征对 $D$ 的信息增益 $/ 信息增益比$ ，选择信息增益 $/ 信息增益比$ 最大的特征 $A_{g}$ ，若 $A_{g}$ 的信息增益 $/ 信息增益比$ 小于阈值 $ε$ ，则将 $n o d e$ 标记为 $D$ 中样本数最多的类；

$比如计算出特征有 “ 房子 ” 的信息增益$ $/ 信息增益比$ $最大，则这一子节点引出两个$
$子节点，分别对应 “ 是 ” 和 “ 否 ” ，对于 “ 有房子 ” 来说其类别全为 “ 是 ” ，则这个子$
$节点是一个叶节点，其类标记为 “ 是 ” ；对于 “ 无房子来说 ” ，我们继续从年龄、$
$工作、信贷情况来选择新的特征$

(4)否则对 $A_{g}$ 的每一可能值 $a_{i}$ ，依 $A_{g} = a_{i}$ 将 $D$ 分割为若干个非空的 $D_{i}$ ，将 $D_{i}$ 中样本数最多的类作为类别标记，构建子节点，由节点及其子节点构成树 $T$ ，返回 $T$ ；
(5)对节点i，以 $D_{i}$ 为训练集，以 $A - {A_{g}}$ 为特征集，递归调用(1)~(5)，得到子树 $T_{i}$ ，返回 $T_{i}$ 。

【③决策树剪枝算法】

在了解决策树剪枝算法之前，我们先来看看决策树最显著的缺点，那就是容易过拟合。我们可能会学习了一个很复杂的树，它对于训练集有很好的拟合效果，但是对于新输入的数据来说，却无法给出好的分类。因此，为了让复杂的树简单些，提出了剪枝算法。
这这里先复习《统计学习方法》上给出的一种剪枝算法，即极小化决策树整体的损失函数。

决策树学习的损失函数

我们用 $| T |$ (树 $T$ 的叶节点个数)来表示模型的复杂度。
经验熵： $H_{t} (T) = - \sum_{k}^{K} \frac{N_{t k}}{N_{t}} l o g (\frac{N_{t k}}{N_{t}})$
$H_{t} (T) 是指叶节点 t 的经验熵，其中 N_{t} 是指叶节点 t 中的样本个数，$
$N_{t k} 是指这 N_{t} 个样本中 k 类样本的个数， K 是指有多少类别$

定义决策树学习的损失函数为：
$C_{α} (T) = \sum_{t = 1}^{| T |} N_{t} H_{t} (T) + α | T | = - \sum_{t = 1}^{| T |} \sum_{k}^{K} N_{t k} l o g (\frac{N_{t k}}{N_{t}}) + α | T |$

令 $C (T) = - \sum_{t = 1}^{| T |} \sum_{k}^{K} N_{t k} l o g (\frac{N_{t k}}{N_{t}})$ ，用于表示模型对训练数据的误差，即模型与训练数据的拟合程度。
可以得到： $C_{α} (T) = C (T) + α | T |$
$α$ 是控制模型复杂度和模型误差之间比重的参数，若 $α$ 小，则选择较复杂的模型(即 $| T |$ 较大)；若 $α$ 大，则选择较简单的模型(即 $| T |$ 较小)。这样能够很好地平衡过拟合(方差)与误差(偏差)

剪枝算法(基于极小化决策树整体的损失函数)

输入：由生成算法得到的整个树 $T$ ，参数 $α$
输出：修剪后的子树 $T_{α}$
(1)计算每一个叶节点的经验熵；
(2)递归地从树的叶节点向上回缩；
(3)计算剪枝前整体树 $T_{b e f o r e}$ 和剪枝后 $T_{a f t e r}$ 的损失函数 $C_{α} (T_{b e f o r e})$ 和 $C_{α} (T_{a f t e r})$ ；
(4)若剪枝后的损失函数 $C_{α} (T_{a f t e r})$ 小于剪枝前的损失函数 $C_{α} (T_{b e f o r e})$ ，则进行剪枝，将父节点变为新的叶节点；
(5)返回(2)，直至不能继续为止，得到损失函数最小的子树 $T_{α}$

通过对决策树的生成算法和剪枝算法的学习，我们可以看出决策树生成希望得到更好的拟合效果，而决策树剪枝通过优化损失函数还考虑了模型的复杂度。决策树生成学习局部的模型，决策树剪枝学习整体的模型。

决策树的计算确实不难，我觉得可以通过对例题，习题的计算来加快理解，在真正应用当中，决策树通常会被用到集成学习当中作为基函数，如随机森林，梯度提升树等(大多选择cart tree)

参考文献：《统计学习方法》、《数据挖掘导论》

htshinichi

发布了45 篇原创文章 · 获赞 37 · 访问量 5万+

私信关注

【机器学习】决策树(一)----学习步骤和常用算法ID3以及C4.5

【学习思想】

【学习步骤】

【①特征选择】

信息增益

信息增益比

基尼指数

【②决策树生成算法】

$I D 3$ $/ C 4.5$ 的生成算法：

【③决策树剪枝算法】

决策树学习的损失函数

剪枝算法(基于极小化决策树整体的损失函数)

决策树的计算确实不难，我觉得可以通过对例题，习题的计算来加快理解，在真正应用当中，决策树通常会被用到集成学习当中作为基函数，如随机森林，梯度提升树等(大多选择cart tree)

【數據】讀取mnist數據集

【ONNX】使用yolov3.onnx模型進行目標識別的實驗

【caffe】配置caffe記錄(GPU)[2018.11.07更新]

【caffe】Caffe模型轉換爲ONNX模型(新版)

【機器學習】決策樹(二)----CART算法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【机器学习】决策树(一)----学习步骤和常用算法ID3以及C4.5

【学习思想】

【学习步骤】

【①特征选择】

信息增益

信息增益比

基尼指数

【②决策树生成算法】

ID3ID3/C4.5/C4.5 的生成算法：

【③决策树剪枝算法】

决策树学习的损失函数

剪枝算法(基于极小化决策树整体的损失函数)

决策树的计算确实不难，我觉得可以通过对例题，习题的计算来加快理解，在真正应用当中，决策树通常会被用到集成学习当中作为基函数，如随机森林，梯度提升树等(大多选择cart tree)

$I D 3$ $/ C 4.5$ 的生成算法：