BI | 決策樹知識點整理

BI-決策樹

  1. 基本概念:決策樹是一種典型的分類方法,首先對數據進行處理,利用歸納算法生成可讀的規則和決策樹,然後使用決策樹對新數據進行分析。
  2. 基本組成:①倒立的樹形結構②頂層節點爲根節點,是決策樹的開始③每個內部節點表示對一個屬性的測試,每個分支都代表一個測試輸出④每個葉子節點代表一個類別
  3. 生成過程:①樹的建立  ②樹的剪枝(消除訓練數據中的噪聲或孤立點對整棵樹的影響)
  4. 決策樹生成算法的特點:①基本的決策樹構造是一個貪心算法,採用自上而下、分而治之的遞歸方式來構造 ②決策樹上的各個分支是在對數據不斷分組的過程中逐漸生長出來的 ③不能處理連續取值的屬性,對於有連續取值的屬性需要先進行離散化
  5. 常見算法 CLS ID3 C4.5 CART

    5.1CLS:①未規定選擇測試屬性的標準和依據

                     ②採用不同的測試屬性及其先後順序將會生成不同的決策樹

    5.2 ID3:①1986年,由Qulian提出了ID3算法

                  ②主要針對CLS算法中沒解決的屬性選擇問題而提出

                  ③選擇具有最大信息增益的屬性作爲當前劃分節點(利用信息論中信息熵的概念來作爲啓發函數)

 

信息源的不確定性越大,熵就越大

    5.2.1信息增益:Gain(S,A)=Entropy(S)-Entropy(S,A)

                                 Entropy(S):爲初始的不確定性

                                 Entropy(S,A):是得到屬性A的信息後決策S的不確定性

                                 Gain(S,A):是屬性A對決策S的信息增益,該值越大說明屬性A對於降低決策S的不確定性的作用就越大

    5.2.2算法缺點:

①偏向分割屬性中取值多的一個(取值越多 則該屬性的信息增益偏大

②只能處理離散屬性(連續取值屬性需要離散化)        

③無法對未分割屬性進行處理              

④ID3不包括剪枝,容易受到噪聲或波動的影響

   5.3 C4.5:①引入增益比例(解決偏向分割屬性中取值較多的一個屬性)

   5.3.1 算法缺點:

①當H(Y)中Pi取值約爲1是 H(Y) 趨近於0,則 G(X,Y) 的值會很大

②只能處理離散屬性(連續取值屬性需要離散化)

③無法對未分割屬性進行處理(空缺值問題 可用平均值或概率法來解決)

④C4.5不包括剪枝,容易受到噪聲或波動的影響 (解決辦法 K折交叉驗證)

   5.4CART(分類迴歸樹):

①引入基於最小距離的基尼指數

② 生成的決策樹爲二叉樹

   5.4.1基尼指數Gini

   

 

   Gini指標考慮每個屬性上的二元劃分

   對於有n個屬性的數據集二元劃分總數爲

 

方法

CLS

ID3

C4.5

CART

提出者

-

Quinlan

Quinlan

Breiman

屬性選擇判據

-

信息增益

信息增益比率

基尼指數

判據大小選擇

-

最大

最大

最小

生成的樹

-

多叉樹

多叉樹

二叉樹

提出順序

1

2

3

4

5.5 決策樹剪枝:

①先剪枝 (限定樹的最大生長高度)

②後剪枝  (找出完全生長的樹 然後進行剪枝)常見方法:降低分類錯誤率剪枝,悲觀剪枝方法,最短描述長度原則剪枝

6.根據決策樹提取分類規則

   規則個數=葉子結點個數

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章