BI | 決策樹知識點整理

原創

2019-06-18 17:05

BI-決策樹

基本概念：決策樹是一種典型的分類方法，首先對數據進行處理，利用歸納算法生成可讀的規則和決策樹，然後使用決策樹對新數據進行分析。
基本組成：①倒立的樹形結構②頂層節點爲根節點，是決策樹的開始③每個內部節點表示對一個屬性的測試，每個分支都代表一個測試輸出④每個葉子節點代表一個類別
生成過程：①樹的建立 ②樹的剪枝（消除訓練數據中的噪聲或孤立點對整棵樹的影響）
決策樹生成算法的特點：①基本的決策樹構造是一個貪心算法，採用自上而下、分而治之的遞歸方式來構造 ②決策樹上的各個分支是在對數據不斷分組的過程中逐漸生長出來的 ③不能處理連續取值的屬性，對於有連續取值的屬性需要先進行離散化
常見算法 CLS ID3 C4.5 CART

5.1CLS：①未規定選擇測試屬性的標準和依據

②採用不同的測試屬性及其先後順序將會生成不同的決策樹

5.2 ID3:①1986年，由Qulian提出了ID3算法

②主要針對CLS算法中沒解決的屬性選擇問題而提出

③選擇具有最大信息增益的屬性作爲當前劃分節點（利用信息論中信息熵的概念來作爲啓發函數）

信息源的不確定性越大，熵就越大

5.2.1信息增益：Gain(S,A)=Entropy(S)-Entropy(S,A)

Entropy(S)：爲初始的不確定性

Entropy(S,A)：是得到屬性A的信息後決策S的不確定性

Gain(S,A)：是屬性A對決策S的信息增益，該值越大說明屬性A對於降低決策S的不確定性的作用就越大

5.2.2算法缺點：

①偏向分割屬性中取值多的一個（取值越多則該屬性的信息增益偏大

②只能處理離散屬性（連續取值屬性需要離散化）

③無法對未分割屬性進行處理

④ID3不包括剪枝，容易受到噪聲或波動的影響

5.3 C4.5：①引入增益比例（解決偏向分割屬性中取值較多的一個屬性）

5.3.1 算法缺點：

①當H(Y)中Pi取值約爲1是 H(Y) 趨近於0，則 G(X,Y) 的值會很大

②只能處理離散屬性（連續取值屬性需要離散化）

③無法對未分割屬性進行處理（空缺值問題可用平均值或概率法來解決）

④C4.5不包括剪枝，容易受到噪聲或波動的影響（解決辦法 K折交叉驗證）

5.4CART（分類迴歸樹）:

①引入基於最小距離的基尼指數

② 生成的決策樹爲二叉樹

5.4.1基尼指數Gini

Gini指標考慮每個屬性上的二元劃分

對於有n個屬性的數據集二元劃分總數爲

方法	CLS	ID3	C4.5	CART
提出者	-	Quinlan	Quinlan	Breiman
屬性選擇判據	-	信息增益	信息增益比率	基尼指數
判據大小選擇	-	最大	最大	最小
生成的樹	-	多叉樹	多叉樹	二叉樹
提出順序	1	2	3	4

5.5 決策樹剪枝：

①先剪枝（限定樹的最大生長高度）

②後剪枝（找出完全生長的樹然後進行剪枝）常見方法：降低分類錯誤率剪枝，悲觀剪枝方法，最短描述長度原則剪枝

6.根據決策樹提取分類規則

規則個數=葉子結點個數

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

BI | 決策樹知識點整理

BI-決策樹

隨筆記錄

BI | 決策樹知識點整理

nefu 1426 素數篩

面試ing | 涼經集結地

深信服2019春招編程第一題

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結