《統計學基礎》——第五章(決策樹)

在這裏插入圖片描述

1. 什麼是決策樹?

決策樹是一種分類和迴歸的基本模型。有結點和有向邊組成。內部節點表示一個屬性或者特徵,葉子節點表示一個類。可以從if-then的角度理解它。

2. 和其他模型比,它的優點?

  • 模型具有可解釋性,容易向業務部門人員描述。
  • 分類速度快
  • 當然也有其他優點,比如可以同時處理類別數據和數值數據。在運用分類決策樹分類時,我們的數據一般會進行離散化

3. 如何學習一棵決策樹?

  • 模型
    決策樹的學習本質上就是從訓練數據集中歸納出一組分類規則,使它與訓練數據矛盾較小的同時具有較強的泛化能力。從另一個角度看,學習也是基於訓練數據集估計條件概率模型。

  • 策略
    決策樹的損失函數通常是正則化的極大似然函數,學習的策略是以損失函數爲目標函數的最小化

  • 算法
    由於這個最小化問題是一個NP完全問題,現實中,我們通常採用啓發式算法(這裏,面試官可能會問什麼是啓發式算法,要有準備,SMO算法就是啓發式算法)來近似求解這一最優化問題,得到的決策樹是次最優的。

  • 該啓發式算法可分爲三步:

    ①特徵選擇
    ②模型生成
    ③決策樹的剪枝

4. 具體談談這三個步驟嗎?

4.1 特徵選擇

4.1.1 信息增益

  • 首先理解熵和條件熵的概念
  • 信息增益理解爲當前整體的熵與在給定特徵下數據的熵的差值,差值越大,說明利用該特徵進行分類後信息熵越小,分類越準確(不確定性越小)。
  • 利用該度量進行特徵選擇的方法:對於數據集D,計算其每一個特徵的信息增益,比較大小後,選擇最大的特徵進行分類。

4.1.2 信息增益比

  • 信息增益存在偏向於選擇取值較多的特徵,因爲特徵取值越多,根據此特徵更容易得到純度更高的自己的子集,因此劃分後熵更低,但是如果該特徵對於我們數據集並不是很相關,則劃分結果會很差,所以我們需要信息增益比。
    在這裏插入圖片描述
  • 基尼指數(CART算法–分類樹)
    在這裏插入圖片描述
    在這裏插入圖片描述

4.2 決策樹的生成(特別注意遞歸的終止條件)

4.2.1 ID3算法

  • 核心思想:通過信息增益進行遞歸的選擇特徵,其實選擇特徵的過程也是構建決策樹的過程。
  • 算法終止條件:如果當前特徵的信息增益小於提前設置好的閾值已經將特徵集合遍歷一遍,則返回決策樹。

4.2.2 C4.5算法

  • 核心思想:通過信息增益比進行遞歸的選擇特徵,其實選擇特徵的過程也是構建決策樹的過程。
  • 算法終止條件:如果當前特徵的信息增益小於提前設置好的閾值已經將特徵集合遍歷一遍,則返回決策樹。

4.2.3 CART生成算法

  • 核心思想:通過基尼指數進行遞歸的選擇特徵,其實選擇特徵的過程也是構建決策樹的過程。
  • 算法終止條件:如果當前特徵的信息增益小於提前設置好的閾值已經將特徵集合遍歷一遍,則返回決策樹。

4.3 決策樹剪枝

  • 由於根據訓練數據生成的決策樹往往過於複雜,導致泛化能力比較弱,所以,實際的決策樹學習中,會將已生成的決策樹進行簡化,以提高其泛華能力,這一過程叫做剪枝。具體說就是在已生成的決策樹上裁掉一些子樹或葉節點,並將其根節點或父節點作爲新的葉節點。
    在這裏插入圖片描述
    在這裏插入圖片描述
    在這裏插入圖片描述
  • 剪枝的終止條件是:如果Tk是由根節點及兩個葉子節點構成的樹,則終止。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章