《统计学基础》——第五章(决策树)

原創

咸鱼小伙子

2020-05-22 19:17

1. 什么是决策树？

决策树是一种分类和回归的基本模型。有结点和有向边组成。内部节点表示一个属性或者特征，叶子节点表示一个类。可以从if-then的角度理解它。

2. 和其他模型比，它的优点？

模型具有可解释性，容易向业务部门人员描述。
分类速度快
当然也有其他优点，比如可以同时处理类别数据和数值数据。在运用分类决策树分类时，我们的数据一般会进行离散化

3. 如何学习一棵决策树？

模型
决策树的学习本质上就是从训练数据集中归纳出一组分类规则，使它与训练数据矛盾较小的同时具有较强的泛化能力。从另一个角度看，学习也是基于训练数据集估计条件概率模型。
策略
决策树的损失函数通常是正则化的极大似然函数，学习的策略是以损失函数为目标函数的最小化
算法
由于这个最小化问题是一个NP完全问题，现实中，我们通常采用启发式算法（这里，面试官可能会问什么是启发式算法，要有准备，SMO算法就是启发式算法）来近似求解这一最优化问题，得到的决策树是次最优的。
该启发式算法可分为三步：

①特征选择
②模型生成
③决策树的剪枝

4. 具体谈谈这三个步骤吗？

4.1 特征选择

4.1.1 信息增益

首先理解熵和条件熵的概念
信息增益理解为当前整体的熵与在给定特征下数据的熵的差值，差值越大，说明利用该特征进行分类后信息熵越小，分类越准确(不确定性越小)。
利用该度量进行特征选择的方法：对于数据集D，计算其每一个特征的信息增益，比较大小后，选择最大的特征进行分类。

4.1.2 信息增益比

信息增益存在偏向于选择取值较多的特征，因为特征取值越多，根据此特征更容易得到纯度更高的自己的子集，因此划分后熵更低，但是如果该特征对于我们数据集并不是很相关，则划分结果会很差，所以我们需要信息增益比。
基尼指数(CART算法–分类树)

4.2 决策树的生成(特别注意递归的终止条件)

4.2.1 ID3算法

核心思想：通过信息增益进行递归的选择特征，其实选择特征的过程也是构建决策树的过程。
算法终止条件：如果当前特征的信息增益小于提前设置好的阈值已经将特征集合遍历一遍，则返回决策树。

4.2.2 C4.5算法

核心思想：通过信息增益比进行递归的选择特征，其实选择特征的过程也是构建决策树的过程。
算法终止条件：如果当前特征的信息增益小于提前设置好的阈值已经将特征集合遍历一遍，则返回决策树。

4.2.3 CART生成算法

核心思想：通过基尼指数进行递归的选择特征，其实选择特征的过程也是构建决策树的过程。
算法终止条件：如果当前特征的信息增益小于提前设置好的阈值已经将特征集合遍历一遍，则返回决策树。

4.3 决策树剪枝

由于根据训练数据生成的决策树往往过于复杂，导致泛化能力比较弱，所以，实际的决策树学习中，会将已生成的决策树进行简化，以提高其泛华能力，这一过程叫做剪枝。具体说就是在已生成的决策树上裁掉一些子树或叶节点，并将其根节点或父节点作为新的叶节点。
剪枝的终止条件是：如果Tk是由根节点及两个叶子节点构成的树，则终止。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Kaggle——Rain in Australia (Predict rain tomorrow in Australia)

文章目錄寫在前面1. 案例背景2. 解讀數據2. 導入數據進行數據分析及特徵工程2.1 概覽數據2.2 探索數據2.2.1 探索數據類型2.2.2 探索缺失值2.2.3 產生訓練集和測試集2.2.4 分析是否存在樣本不平衡問題2.

2020-06-10 16:50:22

如何处理样本不平衡问题

項目中出現了二分類數據不平衡問題，研究總結下對於類別不平橫問題的處理經驗： 1：爲什麼類別不平衡會影響模型的輸出：許多模型的輸出類別是基於閾值的，例如邏輯迴歸中小於0.5的爲反例，大於則爲正例。在數據不平衡時，默認的閾值會導致模

2020-06-10 16:50:22

公式推导(二)——逻辑回归

2020-06-02 09:30:19

公式推导(一)——线性回归

2020-06-02 09:30:19

公式推导(三)——SVM

2020-06-02 09:30:19

混淆矩阵、精确率、召回率、ROC曲线相关问题

2020-06-02 09:30:19

《统计学基础》——第二章(感知机)

咸鱼小伙子

2020-05-12 01:17:32

《统计学基础》——第一章(思维导图)

咸鱼小伙子

2020-05-12 01:17:32

监督学习之KNN算法(分类和回归，面试理解程度)

咸鱼小伙子

2020-03-05 12:57:11

深入理解概率图模型（一）：有向图模型

咸鱼小伙子

2020-02-26 07:07:53

Kaggle——Rain in Australia (Predict rain tomorrow in Australia)

文章目錄寫在前面1. 案例背景2. 解讀數據2. 導入數據進行數據分析及特徵工程2.1 概覽數據2.2 探索數據2.2.1 探索數據類型2.2.2 探索缺失值2.2.3 產生訓練集和測試集2.2.4 分析是否存在樣本不平衡問題2.

2020-06-10 16:50:22

如何处理样本不平衡问题

項目中出現了二分類數據不平衡問題，研究總結下對於類別不平橫問題的處理經驗： 1：爲什麼類別不平衡會影響模型的輸出：許多模型的輸出類別是基於閾值的，例如邏輯迴歸中小於0.5的爲反例，大於則爲正例。在數據不平衡時，默認的閾值會導致模

2020-06-10 16:50:22

公式推导(二)——逻辑回归

2020-06-02 09:30:19

公式推导(一)——线性回归

2020-06-02 09:30:19

公式推导(三)——SVM

2020-06-02 09:30:19

24小時熱門文章

最新文章

最新評論文章