《統計學基礎》——第五章(決策樹)

原創

咸鱼小伙子

2020-05-22 19:17

1. 什麼是決策樹？

決策樹是一種分類和迴歸的基本模型。有結點和有向邊組成。內部節點表示一個屬性或者特徵，葉子節點表示一個類。可以從if-then的角度理解它。

2. 和其他模型比，它的優點？

模型具有可解釋性，容易向業務部門人員描述。
分類速度快
當然也有其他優點，比如可以同時處理類別數據和數值數據。在運用分類決策樹分類時，我們的數據一般會進行離散化

3. 如何學習一棵決策樹？

模型
決策樹的學習本質上就是從訓練數據集中歸納出一組分類規則，使它與訓練數據矛盾較小的同時具有較強的泛化能力。從另一個角度看，學習也是基於訓練數據集估計條件概率模型。
策略
決策樹的損失函數通常是正則化的極大似然函數，學習的策略是以損失函數爲目標函數的最小化
算法
由於這個最小化問題是一個NP完全問題，現實中，我們通常採用啓發式算法（這裏，面試官可能會問什麼是啓發式算法，要有準備，SMO算法就是啓發式算法）來近似求解這一最優化問題，得到的決策樹是次最優的。
該啓發式算法可分爲三步：

①特徵選擇
②模型生成
③決策樹的剪枝

4. 具體談談這三個步驟嗎？

4.1 特徵選擇

4.1.1 信息增益

首先理解熵和條件熵的概念
信息增益理解爲當前整體的熵與在給定特徵下數據的熵的差值，差值越大，說明利用該特徵進行分類後信息熵越小，分類越準確(不確定性越小)。
利用該度量進行特徵選擇的方法：對於數據集D，計算其每一個特徵的信息增益，比較大小後，選擇最大的特徵進行分類。

4.1.2 信息增益比

信息增益存在偏向於選擇取值較多的特徵，因爲特徵取值越多，根據此特徵更容易得到純度更高的自己的子集，因此劃分後熵更低，但是如果該特徵對於我們數據集並不是很相關，則劃分結果會很差，所以我們需要信息增益比。
基尼指數(CART算法–分類樹)

4.2 決策樹的生成(特別注意遞歸的終止條件)

4.2.1 ID3算法

核心思想：通過信息增益進行遞歸的選擇特徵，其實選擇特徵的過程也是構建決策樹的過程。
算法終止條件：如果當前特徵的信息增益小於提前設置好的閾值已經將特徵集合遍歷一遍，則返回決策樹。

4.2.2 C4.5算法

核心思想：通過信息增益比進行遞歸的選擇特徵，其實選擇特徵的過程也是構建決策樹的過程。
算法終止條件：如果當前特徵的信息增益小於提前設置好的閾值已經將特徵集合遍歷一遍，則返回決策樹。

4.2.3 CART生成算法

核心思想：通過基尼指數進行遞歸的選擇特徵，其實選擇特徵的過程也是構建決策樹的過程。
算法終止條件：如果當前特徵的信息增益小於提前設置好的閾值已經將特徵集合遍歷一遍，則返回決策樹。

4.3 決策樹剪枝

由於根據訓練數據生成的決策樹往往過於複雜，導致泛化能力比較弱，所以，實際的決策樹學習中，會將已生成的決策樹進行簡化，以提高其泛華能力，這一過程叫做剪枝。具體說就是在已生成的決策樹上裁掉一些子樹或葉節點，並將其根節點或父節點作爲新的葉節點。
剪枝的終止條件是：如果Tk是由根節點及兩個葉子節點構成的樹，則終止。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Kaggle——Rain in Australia (Predict rain tomorrow in Australia)

文章目錄寫在前面1. 案例背景2. 解讀數據2. 導入數據進行數據分析及特徵工程2.1 概覽數據2.2 探索數據2.2.1 探索數據類型2.2.2 探索缺失值2.2.3 產生訓練集和測試集2.2.4 分析是否存在樣本不平衡問題2.

2020-06-10 16:50:22

如何處理樣本不平衡問題

項目中出現了二分類數據不平衡問題，研究總結下對於類別不平橫問題的處理經驗： 1：爲什麼類別不平衡會影響模型的輸出：許多模型的輸出類別是基於閾值的，例如邏輯迴歸中小於0.5的爲反例，大於則爲正例。在數據不平衡時，默認的閾值會導致模

2020-06-10 16:50:22

公式推導(二)——邏輯迴歸

2020-06-02 09:30:19

公式推導(一)——線性迴歸

2020-06-02 09:30:19

公式推導(三)——SVM

2020-06-02 09:30:19

混淆矩陣、精確率、召回率、ROC曲線相關問題

2020-06-02 09:30:19

《統計學基礎》——第二章(感知機)

咸鱼小伙子

2020-05-12 01:17:32

《統計學基礎》——第一章(思維導圖)

咸鱼小伙子

2020-05-12 01:17:32

監督學習之KNN算法(分類和迴歸，面試理解程度)

咸鱼小伙子

2020-03-05 12:57:11

深入理解概率圖模型（一）：有向圖模型

咸鱼小伙子

2020-02-26 07:07:53

Kaggle——Rain in Australia (Predict rain tomorrow in Australia)

文章目錄寫在前面1. 案例背景2. 解讀數據2. 導入數據進行數據分析及特徵工程2.1 概覽數據2.2 探索數據2.2.1 探索數據類型2.2.2 探索缺失值2.2.3 產生訓練集和測試集2.2.4 分析是否存在樣本不平衡問題2.

2020-06-10 16:50:22

如何處理樣本不平衡問題

項目中出現了二分類數據不平衡問題，研究總結下對於類別不平橫問題的處理經驗： 1：爲什麼類別不平衡會影響模型的輸出：許多模型的輸出類別是基於閾值的，例如邏輯迴歸中小於0.5的爲反例，大於則爲正例。在數據不平衡時，默認的閾值會導致模

2020-06-10 16:50:22

公式推導(二)——邏輯迴歸

2020-06-02 09:30:19

公式推導(一)——線性迴歸

2020-06-02 09:30:19

公式推導(三)——SVM

2020-06-02 09:30:19

24小時熱門文章

最新文章

最新評論文章