BI-決策樹
- 基本概念:決策樹是一種典型的分類方法,首先對數據進行處理,利用歸納算法生成可讀的規則和決策樹,然後使用決策樹對新數據進行分析。
- 基本組成:①倒立的樹形結構②頂層節點爲根節點,是決策樹的開始③每個內部節點表示對一個屬性的測試,每個分支都代表一個測試輸出④每個葉子節點代表一個類別
- 生成過程:①樹的建立 ②樹的剪枝(消除訓練數據中的噪聲或孤立點對整棵樹的影響)
- 決策樹生成算法的特點:①基本的決策樹構造是一個貪心算法,採用自上而下、分而治之的遞歸方式來構造 ②決策樹上的各個分支是在對數據不斷分組的過程中逐漸生長出來的 ③不能處理連續取值的屬性,對於有連續取值的屬性需要先進行離散化
- 常見算法 CLS ID3 C4.5 CART
5.1CLS:①未規定選擇測試屬性的標準和依據
②採用不同的測試屬性及其先後順序將會生成不同的決策樹
5.2 ID3:①1986年,由Qulian提出了ID3算法
②主要針對CLS算法中沒解決的屬性選擇問題而提出
③選擇具有最大信息增益的屬性作爲當前劃分節點(利用信息論中信息熵的概念來作爲啓發函數)
信息源的不確定性越大,熵就越大
5.2.1信息增益:Gain(S,A)=Entropy(S)-Entropy(S,A)
Entropy(S):爲初始的不確定性
Entropy(S,A):是得到屬性A的信息後決策S的不確定性
Gain(S,A):是屬性A對決策S的信息增益,該值越大說明屬性A對於降低決策S的不確定性的作用就越大
5.2.2算法缺點:
①偏向分割屬性中取值多的一個(取值越多 則該屬性的信息增益偏大
②只能處理離散屬性(連續取值屬性需要離散化)
③無法對未分割屬性進行處理
④ID3不包括剪枝,容易受到噪聲或波動的影響
5.3 C4.5:①引入增益比例(解決偏向分割屬性中取值較多的一個屬性)
5.3.1 算法缺點:
①當H(Y)中Pi取值約爲1是 H(Y) 趨近於0,則 G(X,Y) 的值會很大
②只能處理離散屬性(連續取值屬性需要離散化)
③無法對未分割屬性進行處理(空缺值問題 可用平均值或概率法來解決)
④C4.5不包括剪枝,容易受到噪聲或波動的影響 (解決辦法 K折交叉驗證)
5.4CART(分類迴歸樹):
①引入基於最小距離的基尼指數
② 生成的決策樹爲二叉樹
5.4.1基尼指數Gini
Gini指標考慮每個屬性上的二元劃分
對於有n個屬性的數據集二元劃分總數爲
方法 |
CLS |
ID3 |
C4.5 |
CART |
提出者 |
- |
Quinlan |
Quinlan |
Breiman |
屬性選擇判據 |
- |
信息增益 |
信息增益比率 |
基尼指數 |
判據大小選擇 |
- |
最大 |
最大 |
最小 |
生成的樹 |
- |
多叉樹 |
多叉樹 |
二叉樹 |
提出順序 |
1 |
2 |
3 |
4 |
5.5 決策樹剪枝:
①先剪枝 (限定樹的最大生長高度)
②後剪枝 (找出完全生長的樹 然後進行剪枝)常見方法:降低分類錯誤率剪枝,悲觀剪枝方法,最短描述長度原則剪枝
6.根據決策樹提取分類規則
規則個數=葉子結點個數