《统计学基础》——第五章(决策树)

在这里插入图片描述

1. 什么是决策树?

决策树是一种分类和回归的基本模型。有结点和有向边组成。内部节点表示一个属性或者特征,叶子节点表示一个类。可以从if-then的角度理解它。

2. 和其他模型比,它的优点?

  • 模型具有可解释性,容易向业务部门人员描述。
  • 分类速度快
  • 当然也有其他优点,比如可以同时处理类别数据和数值数据。在运用分类决策树分类时,我们的数据一般会进行离散化

3. 如何学习一棵决策树?

  • 模型
    决策树的学习本质上就是从训练数据集中归纳出一组分类规则,使它与训练数据矛盾较小的同时具有较强的泛化能力。从另一个角度看,学习也是基于训练数据集估计条件概率模型。

  • 策略
    决策树的损失函数通常是正则化的极大似然函数,学习的策略是以损失函数为目标函数的最小化

  • 算法
    由于这个最小化问题是一个NP完全问题,现实中,我们通常采用启发式算法(这里,面试官可能会问什么是启发式算法,要有准备,SMO算法就是启发式算法)来近似求解这一最优化问题,得到的决策树是次最优的。

  • 该启发式算法可分为三步:

    ①特征选择
    ②模型生成
    ③决策树的剪枝

4. 具体谈谈这三个步骤吗?

4.1 特征选择

4.1.1 信息增益

  • 首先理解熵和条件熵的概念
  • 信息增益理解为当前整体的熵与在给定特征下数据的熵的差值,差值越大,说明利用该特征进行分类后信息熵越小,分类越准确(不确定性越小)。
  • 利用该度量进行特征选择的方法:对于数据集D,计算其每一个特征的信息增益,比较大小后,选择最大的特征进行分类。

4.1.2 信息增益比

  • 信息增益存在偏向于选择取值较多的特征,因为特征取值越多,根据此特征更容易得到纯度更高的自己的子集,因此划分后熵更低,但是如果该特征对于我们数据集并不是很相关,则划分结果会很差,所以我们需要信息增益比。
    在这里插入图片描述
  • 基尼指数(CART算法–分类树)
    在这里插入图片描述
    在这里插入图片描述

4.2 决策树的生成(特别注意递归的终止条件)

4.2.1 ID3算法

  • 核心思想:通过信息增益进行递归的选择特征,其实选择特征的过程也是构建决策树的过程。
  • 算法终止条件:如果当前特征的信息增益小于提前设置好的阈值已经将特征集合遍历一遍,则返回决策树。

4.2.2 C4.5算法

  • 核心思想:通过信息增益比进行递归的选择特征,其实选择特征的过程也是构建决策树的过程。
  • 算法终止条件:如果当前特征的信息增益小于提前设置好的阈值已经将特征集合遍历一遍,则返回决策树。

4.2.3 CART生成算法

  • 核心思想:通过基尼指数进行递归的选择特征,其实选择特征的过程也是构建决策树的过程。
  • 算法终止条件:如果当前特征的信息增益小于提前设置好的阈值已经将特征集合遍历一遍,则返回决策树。

4.3 决策树剪枝

  • 由于根据训练数据生成的决策树往往过于复杂,导致泛化能力比较弱,所以,实际的决策树学习中,会将已生成的决策树进行简化,以提高其泛华能力,这一过程叫做剪枝。具体说就是在已生成的决策树上裁掉一些子树或叶节点,并将其根节点或父节点作为新的叶节点。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • 剪枝的终止条件是:如果Tk是由根节点及两个叶子节点构成的树,则终止。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章