决策树算法梳理

信息论基础

熵

度量随机变量的不确定性。（纯度）
定义：假设随机变量X的可能取值有 $x_1，x_2， ... , x_n$
对于每一个可能的取值 $x_i$ ，其概率 $P(X=x_i) = p_i , ( i = 1,2, ... , n)$
因此随机变量X的熵：
$H(x)=-\sum_{i=1}^np_ilog_2p_i$
对于样本集合 $D$ 来说，随机变量X是样本的类别，即，假设样本有 $k$ 个类别，每个类别的概率是 $\frac{|C_k|}{|D|}$ ，其中 $|C_k|$ 表示类别k的样本个数， $|D|$ 表示样本总数
则对于样本集合D来说熵（经验熵）为：
$H(x)=-\sum_{k=1}^k\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}$

联合熵

将一维随机变量分布推广到多维随机变量分布，则其联合熵 (Joint entropy) 为：
$H(x)=-\sum_{x,y}p(x,y)log_2p(x,y)$
注意点：
1、熵只依赖于随机变量的分布,与随机变量取值无关，所以也可以将 X 的熵记作 H§。
2、令0log0=0(因为某个取值概率可能为0)。

条件熵

条件熵 $H(Y|X)$ 表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。条件熵 $H(Y|X)$ 定义为 X 给定条件下 Y 的条件概率分布的熵对 X 的数学期望：

条件熵 $H(Y|X)$ 相当于联合熵 H(X,Y)减去单独的熵 H(X)，即

$H(Y|X)=H(X,Y)−H(X)$

信息增益

信息增益在决策树算法中是用来选择特征的指标，信息增益越大，则这个特征的选择性越好，在概率中定义为：待分类的集合的熵和选定某个特征的条件熵之差（这里只的是经验熵或经验条件熵，由于真正的熵并不知道，是根据样本计算出来的），公式如下：
$IG(Y|X)=H(Y)-H(Y|X)$

基尼不纯度

基尼不纯度的大概意思是一个随机事件变成它的对立事件的概率
例如一个随机事件X ，P(X=0) = 0.5 ,P(X=1)=0.5
那么基尼不纯度就为 P(X=0)(1 - P(X=0)) + P(X=1)(1 - P(X=1)) = 0.5

一个随机事件Y ，P(Y=0) = 0.1 ,P(Y=1)=0.9
那么基尼不纯度就为P(Y=0)*(1 - P(Y=0)) +   P(Y=1)*(1 - P(Y=1))  = 0.18
很明显 X比Y更混乱，因为两个都为0.5 很难判断哪个发生。而Y就确定得多，Y=0发生的概率很大。而基尼不纯度也就越小。
所以基尼不纯度也可以作为衡量系统混乱程度的标准

决策树的不同分类算法

ID3算法

ID3算法的核心是在决策树各个节点上应用信息增益准则选择特征，递归地构建决策树。具体方法是：从根节点开始，对节点计算所有可能的特征的信息增益，选择信息增益最大的特征作为节点的特征，由该特征的不同取值建立子节点；再对子节点递归的调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止。最后得到一个决策树。ID3相当于用极大似然估计法进行概率模型的选择。

D3算法描述：
输入：训练数据集D，特征集A，阈值；

输出：决策树T

（1）若D中所有实例属于同一类 $C_k$ ，则T为单节点树，并将 $C_k$ 类作为该节点的类标记，返回T；

（2）若 $A=\varnothing$ ，则T为单节点树，并将D中实例数最大的类作为该节点的类标记，返回T；

（3）否则，按信息增益算法计算A中个特征对D的信息增益，选择信息增益最大的特征;

（4）若果 $A_g$ 的信息增益小于阈值，则置T为单节点树，并将D中实例数最大的类作为该节点的类标记，返回T；

（5）否则， $A_g$ 对的每一个可能值，依 $A_g=a_i$ 将D分割为若干非空子集 $D_i$ ，将中实例数最大的类作为标记，构建子节点，由节点及其子节点构成树T，返回T；

（6）对第i个子节点，以 $D_i$ 为训练集，以 ${A_g}$ 为特征集，递归地调用（1）~（5）步，得到子树 $T_i$ ，返回 $T_i$ .

C4.5算法介绍

C4.5算法与ID3算法相似，C4.5算法对ID3算法进行了改进，C4.5在生成的过程中，用信息增益比来选择特征。

C4.5算法描述：
（1）若D中所有实例属于同一类 $C_k$ ，则T为单节点树，并将 $C_k$ 类作为该节点的类标记，返回T；

（2）若 $A=\varnothing$ ，则T为单节点树，并将D中实例数最大的类 $C_k$ 作为该节点的类标记，返回T；

（3）否则，按信息增益比来计算A中个特征对D的信息增益比，选择信息增益比最大的特征 $A_g$ ;

（4）若果 $A_g$ 的信息增益比小于阈值，则置T为单节点树，并将D中实例数最大的类 $C_k$ 作为该节点的类标记，返回T；

（5）否则，对 $A_g$ 的每一个可能值 $a_i$ ，依将D分割为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的类作为标记，构建子节点，由节点及其子节点构成树T，返回T；

（6）对第i个子节点，以 $D_i$ 为训练集，以{ $A_g$ }为特征集，递归地调用（1）~（5）步，得到子树 $T_i$ ，返回 $T_i$

CART介绍

CART（Classification And Regression Tree），即可以用作分类也可以用作回归，相较于ID3算法和C4.5算法，CART算法的用途更加广泛。sklearn中的决策树就是使用CART算法构建的。

CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。CART构建决策树用的是二叉树结构，在每个叶节点上预测的是概率分布，也就是在输入给定的条件下输出的条件概率分布。

CART算法由以下两步组成：

（1）决策树生成：基于训练数据集生成决策树，生成的决策树要尽量大；

（2）决策树剪枝：用验证集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准。

CART决策树的生成就是递归的调用二叉树的过程。对回归树用平方误差最小化准则（mse）或绝对误差最小化准则（mae），对分类树用基尼指数最小化准则，进行特征选择，生成二叉树。

回归树生成

对于连续型数据，使用回归树进行预测。在训练数据集所在的输入空间中，递归地将每个区域划分为两个子区域并决定每个子区域上的输出值，构建二叉树。
（1）选择最优切分变量j与切分点s，求解：

遍历变量j，对固定的切分变量j扫描切分点s，选择使上式达到最小值的对；

（2）用选定的对划分区域并决定相应的输出值：

$x\in R_m,m={1,2}$
其中，由式子可以看出， $\hat{c_m}$ 为节点m中样本的平均值。

（3）继续对两个子区域调用步骤（1）,（2），直到满足停止条件；

（4）将输入空间划分为M个区域，生成决策树：

即，当使用样本进行预测时，样本最终落入的叶节点的均值作为最终的预测值。

决策树防止过拟合手段

剪枝处理(pruning)是决策树学习算法中对付“过拟合”的主要手段, 在决策树学习中，为了尽可能正确分类训练样本，节点划分过程不断重复，有时候会造成决策树分支过多，以至于将训练样本集自身特点当作泛化特点，而导致过拟合。因此可以采用剪枝处理来去掉一些分支来降低过拟合的风险。剪枝的基本策略有预剪枝(prepruning)和后剪枝(postprunint).
预剪枝是指在决策树生成过程中，在每个节点划分前先估计其划分后的泛化性能，如果不能提升，则停止划分，将当前节点标记为叶结点。
后剪枝是指生成决策树以后，再自下而上对非叶结点进行考察，若将此节点标记为叶结点可以带来泛化性能提升，则修改之.

模型评估

自助法（bootstrap）：
训练集是对于原数据集的有放回抽样，如果原始数据集N，可以证明，大小为N的自助样本大约包含原数据63.2%的记录。当N充分大的时候， $1-(1-1/N)^N$ 概率逼近 $1-e^{-1}=0.632$ 。抽样 b 次，产生 b 个bootstrap样本，则，总准确率为（accs为包含所有样本计算的准确率）
$accboot=1/b∑_{i=1}^b(0.632×ε_i+0.368×accs)$

准确度的区间估计：
将分类问题看做二项分布，则有：
令 X 为模型正确分类，p 为准确率，X 服从均值 Np、方差 Np（1-p）的二项分布。 $acc=X/N$ 为均值 p，方差 $p(1-p)/N$ 的二项分布。acc 的置信区间：

sklearn参数详解

'''
scikit-learn中有两类决策树，它们均采用优化的CART决策树算法。
'''
from sklearn.tree import DecisionTreeRegressor
'''
回归决策树
'''
DecisionTreeRegressor(criterion="mse",
                         splitter="best",
                         max_depth=None,
                         min_samples_split=2,
                         min_samples_leaf=1,
                         min_weight_fraction_leaf=0.,
                         max_features=None,
                         random_state=None,
                         max_leaf_nodes=None,
                         min_impurity_decrease=0.,
                         min_impurity_split=None,
                         presort=False)
'''
参数含义：
1.criterion:string, optional (default="mse")
            它指定了切分质量的评价准则。默认为'mse'(mean squared error)。
2.splitter:string, optional (default="best")
            它指定了在每个节点切分的策略。有两种切分策咯：
            (1).splitter='best':表示选择最优的切分特征和切分点。
            (2).splitter='random':表示随机切分。
3.max_depth:int or None, optional (default=None)
             指定树的最大深度。如果为None，则表示树的深度不限，直到
             每个叶子都是纯净的，即叶节点中所有样本都属于同一个类别，
             或者叶子节点中包含小于min_samples_split个样本。
4.min_samples_split:int, float, optional (default=2)
             整数或者浮点数，默认为2。它指定了分裂一个内部节点(非叶子节点)
             需要的最小样本数。如果为浮点数(0到1之间)，最少样本分割数为ceil(min_samples_split * n_samples)
5.min_samples_leaf:int, float, optional (default=1)
             整数或者浮点数，默认为1。它指定了每个叶子节点包含的最少样本数。
             如果为浮点数(0到1之间)，每个叶子节点包含的最少样本数为ceil(min_samples_leaf * n_samples)
6.min_weight_fraction_leaf:float, optional (default=0.)
             它指定了叶子节点中样本的最小权重系数。默认情况下样本有相同的权重。
7.max_feature:int, float, string or None, optional (default=None)
             可以是整数，浮点数，字符串或者None。默认为None。
             (1).如果是整数，则每次节点分裂只考虑max_feature个特征。
             (2).如果是浮点数(0到1之间)，则每次分裂节点的时候只考虑int(max_features * n_features)个特征。
             (3).如果是字符串'auto',max_features=n_features。
             (4).如果是字符串'sqrt',max_features=sqrt(n_features)。
             (5).如果是字符串'log2',max_features=log2(n_features)。
             (6).如果是None，max_feature=n_feature。
8.random_state:int, RandomState instance or None, optional (default=None)
             (1).如果为整数，则它指定了随机数生成器的种子。
             (2).如果为RandomState实例，则指定了随机数生成器。
             (3).如果为None，则使用默认的随机数生成器。
9.max_leaf_nodes:int or None, optional (default=None)
             (1).如果为None，则叶子节点数量不限。
             (2).如果不为None，则max_depth被忽略。
10.min_impurity_decrease:float, optional (default=0.)
             如果节点的分裂导致不纯度的减少(分裂后样本比分裂前更加纯净)大于或等于min_impurity_decrease，则分裂该节点。
             个人理解这个参数应该是针对分类问题时才有意义。这里的不纯度应该是指基尼指数。
             回归生成树采用的是平方误差最小化策略。分类生成树采用的是基尼指数最小化策略。
             加权不纯度的减少量计算公式为：
             min_impurity_decrease=N_t / N * (impurity - N_t_R / N_t * right_impurity
                                - N_t_L / N_t * left_impurity)
             其中N是样本的总数，N_t是当前节点的样本数，N_t_L是分裂后左子节点的样本数，
             N_t_R是分裂后右子节点的样本数。impurity指当前节点的基尼指数，right_impurity指
             分裂后右子节点的基尼指数。left_impurity指分裂后左子节点的基尼指数。
11.min_impurity_split:float
             树生长过程中早停止的阈值。如果当前节点的不纯度高于阈值，节点将分裂，否则它是叶子节点。
             这个参数已经被弃用。用min_impurity_decrease代替了min_impurity_split。
12.presort： bool, optional (default=False)
             指定是否需要提前排序数据从而加速寻找最优切分的过程。设置为True时，对于大数据集
             会减慢总体的训练过程；但是对于一个小数据集或者设定了最大深度的情况下，会加速训练过程。
属性：
1.feature_importances_ : array of shape = [n_features]
             特征重要性。该值越高，该特征越重要。
             特征的重要性为该特征导致的评价准则的（标准化的）总减少量。它也被称为基尼的重要性
2.max_feature_:int
             max_features推断值。
3.n_features_：int
             执行fit的时候，特征的数量。
4.n_outputs_ : int
             执行fit的时候，输出的数量。
5.tree_ : 底层的Tree对象。
Notes：
控制树大小的参数的默认值（例如``max_depth``，``min_samples_leaf``等）导致完全成长和未剪枝的树，
这些树在某些数据集上可能表现很好。为减少内存消耗，应通过设置这些参数值来控制树的复杂度和大小。
方法：
1.fit(X,y):训练模型。
2.predict(X):预测。
'''
 
from sklearn.tree import DecisionTreeClassifier
'''
分类决策树
'''
DecisionTreeClassifier(criterion="gini",
                 splitter="best",
                 max_depth=None,
                 min_samples_split=2,
                 min_samples_leaf=1,
                 min_weight_fraction_leaf=0.,
                 max_features=None,
                 random_state=None,
                 max_leaf_nodes=None,
                 min_impurity_decrease=0.,
                 min_impurity_split=None,
                 class_weight=None,
                 presort=False)
'''
参数含义：
1.criterion:string, optional (default="gini")
            (1).criterion='gini',分裂节点时评价准则是Gini指数。
            (2).criterion='entropy',分裂节点时的评价指标是信息增益。
2.max_depth:int or None, optional (default=None)。指定树的最大深度。
            如果为None，表示树的深度不限。直到所有的叶子节点都是纯净的，即叶子节点
            中所有的样本点都属于同一个类别。或者每个叶子节点包含的样本数小于min_samples_split。
3.splitter:string, optional (default="best")。指定分裂节点时的策略。
           (1).splitter='best',表示选择最优的分裂策略。
           (2).splitter='random',表示选择最好的随机切分策略。
4.min_samples_split:int, float, optional (default=2)。表示分裂一个内部节点需要的做少样本数。
           (1).如果为整数，则min_samples_split就是最少样本数。
           (2).如果为浮点数(0到1之间)，则每次分裂最少样本数为ceil(min_samples_split * n_samples)
5.min_samples_leaf: int, float, optional (default=1)。指定每个叶子节点需要的最少样本数。
           (1).如果为整数，则min_samples_split就是最少样本数。
           (2).如果为浮点数(0到1之间)，则每个叶子节点最少样本数为ceil(min_samples_leaf * n_samples)
6.min_weight_fraction_leaf:float, optional (default=0.)
           指定叶子节点中样本的最小权重。
7.max_features:int, float, string or None, optional (default=None).
           搜寻最佳划分的时候考虑的特征数量。
           (1).如果为整数，每次分裂只考虑max_features个特征。
           (2).如果为浮点数(0到1之间)，每次切分只考虑int(max_features * n_features)个特征。
           (3).如果为'auto'或者'sqrt',则每次切分只考虑sqrt(n_features)个特征
           (4).如果为'log2',则每次切分只考虑log2(n_features)个特征。
           (5).如果为None,则每次切分考虑n_features个特征。
           (6).如果已经考虑了max_features个特征，但还是没有找到一个有效的切分，那么还会继续寻找
           下一个特征，直到找到一个有效的切分为止。
8.random_state:int, RandomState instance or None, optional (default=None)
           (1).如果为整数，则它指定了随机数生成器的种子。
           (2).如果为RandomState实例，则指定了随机数生成器。
           (3).如果为None，则使用默认的随机数生成器。
9.max_leaf_nodes: int or None, optional (default=None)。指定了叶子节点的最大数量。
           (1).如果为None,叶子节点数量不限。
           (2).如果为整数，则max_depth被忽略。
10.min_impurity_decrease:float, optional (default=0.)
         如果节点的分裂导致不纯度的减少(分裂后样本比分裂前更加纯净)大于或等于min_impurity_decrease，则分裂该节点。
         加权不纯度的减少量计算公式为：
         min_impurity_decrease=N_t / N * (impurity - N_t_R / N_t * right_impurity
                            - N_t_L / N_t * left_impurity)
         其中N是样本的总数，N_t是当前节点的样本数，N_t_L是分裂后左子节点的样本数，
         N_t_R是分裂后右子节点的样本数。impurity指当前节点的基尼指数，right_impurity指
         分裂后右子节点的基尼指数。left_impurity指分裂后左子节点的基尼指数。
11.min_impurity_split:float
         树生长过程中早停止的阈值。如果当前节点的不纯度高于阈值，节点将分裂，否则它是叶子节点。
         这个参数已经被弃用。用min_impurity_decrease代替了min_impurity_split。
12.class_weight:dict, list of dicts, "balanced" or None, default=None
         类别权重的形式为{class_label: weight}
         (1).如果没有给出每个类别的权重，则每个类别的权重都为1。
         (2).如果class_weight='balanced'，则分类的权重与样本中每个类别出现的频率成反比。
         计算公式为：n_samples / (n_classes * np.bincount(y))
         (3).如果sample_weight提供了样本权重(由fit方法提供)，则这些权重都会乘以sample_weight。
13.presort:bool, optional (default=False)
        指定是否需要提前排序数据从而加速训练中寻找最优切分的过程。设置为True时，对于大数据集
        会减慢总体的训练过程；但是对于一个小数据集或者设定了最大深度的情况下，会加速训练过程。
属性:
1.classes_:array of shape = [n_classes] or a list of such arrays
        类别的标签值。
2.feature_importances_ : array of shape = [n_features]
        特征重要性。越高，特征越重要。
        特征的重要性为该特征导致的评价准则的（标准化的）总减少量。它也被称为基尼的重要性
3.max_features_ : int
        max_features的推断值。
4.n_classes_ : int or list
        类别的数量
5.n_features_ : int
        执行fit后，特征的数量
6.n_outputs_ : int
        执行fit后，输出的数量
7.tree_ : Tree object
        树对象，即底层的决策树。
方法:
1.fit(X,y):训练模型。
2.predict(X):预测
3.predict_log_poba(X):预测X为各个类别的概率对数值。
4.predict_proba(X):预测X为各个类别的概率值。
'''

决策树算法梳理