監督學習 | ID3 & C4.5 決策樹原理


相關文章:

機器學習 | 目錄

監督學習 | ID3 決策樹原理及Python實現

監督學習 | CART 分類迴歸樹原理

監督學習 | 決策樹之Sklearn實現

監督學習 | 決策樹之網絡搜索

本文大部分內容搬運自李航老師的《統計學習方法》[1],以給出決策樹算法較爲完整的定義,關於 ID3 算法的更多推到過程以及例子、Python實現,可以參考這篇文章,關於決策樹算法的 Sklearn 實現,可以參考這篇文章

決策樹

決策樹是一種基本的分類與迴歸方法。在分類問題中,表示基於特徵對實例進行分類的過程。它可以認爲是 if-then 規則的集合,也可以認爲是定義在特徵空間與類空間上的條件概率分佈。

決策樹學習通常包括 3 個步驟:特徵選擇決策樹的生成決策樹的修剪。這些決策樹學習的思想主要來源於由 Quinlan 在 1986 年提出的 ID3 算法和 1993 年提出的 C4.5 算法,以及由 Breiman 等人在 1984 年提出的 CART 算法。這三個算法最大的不同在於特徵選擇的指標上,三者分別使用:信息增益、信息增益率以及基尼指數作爲特徵選擇指標。本文將介紹 ID3 以及 C4.5 算法,並在下一篇文章中介紹 CART 算法。

1. 特徵選擇

特徵選擇在於選取對訓練數據具有分類能力的特徵,這樣可以提高決策樹學習的效率。如果利用一個特徵進行分類的結果與隨機分類的結果沒有很大差別,則稱這個特徵是沒有分類能力的。

通常特徵選擇的準則是信息增益或信息增益率。

1.1 熵

(entropy)是表示隨機變量不確定性的度量。設 XX 是一個取有限個值的離散隨機變量,其概率分佈爲:

P(X=xi)=pi,i=1,2,...,nP(X=x_i)=p_i, \quad i=1,2,...,n

則隨機變量 XX 的熵定義爲:

H(X)=i=1npilogpi(1)H(X)=-\sum_{i=1}^np_i\log p_i \tag{1}

pi=0p_i=0,則定義 0log0=00*\log0=0,通常式 (1) 中的對數以 2 或 e 爲底,單位爲比特(bit)或納特(nat)。由此可知,熵只依賴於 XX 的分佈,而與 XX 的取值無關,所以也可以將 XX 的熵記做 H(p)H(p),即:

H(p)=i=1npilogpi(2)H(p)=-\sum_{i=1}^np_i\log p_i \tag{2}

熵越大,隨機變量的不確定性就越大,由此可以驗證:

0H(p)logn(3)0\leq H(p)\leq \log n \tag{3}

1.2 條件熵

設由隨機變量 (X,Y)(X,Y),其聯合概率分佈爲:

P(X=xi,Y=yj)=pij,i=1,2,...,n;j=1,2,...,mP(X=x_i,Y=y_j)=p_{ij},\quad i=1,2,...,n;j=1,2,...,m

條件熵 H(YX)H(Y|X) 表示在已知隨機變量 XX 的條件下隨機變量 YY 的不確定性,其定義爲 XX 給定條件下 YY 的條件概率分佈的熵的 XX 的數學期望:

H(YX)=i=1npiH(YX=xi)(4)H(Y|X)=\sum_{i=1}^n p_iH(Y|X=x_i)\tag{4}

其中 pi=P(X=xi),i=1,2,...,np_i=P(X=x_i), \quad i=1,2,...,n

當熵和條件熵中的概率由數據估計得到時,所對應的熵與條件熵分別稱爲經驗熵(emprical entropy)和經驗條件熵(empirical conditional emtropy)。

1.3 信息增益

信息增益(information gain)表示得知特徵 XX 的信息而使類 YY 的信息不確定性減少的程度。

特徵 AA 對訓練數據集 DD 的信息增益 g(D,A)g(D,A),定義爲集合 DD 的經驗熵 H(D)H(D) 與特徵 AA 給定條件下 DD 的經驗條件熵 H(DA)H(D|A) 之差,即:

g(D,A)=H(D)H(DA)(5)g(D,A)=H(D)-H(D|A) \tag{5}

一般地,熵 H(Y)H(Y) 與條件熵 H(DA)H(D|A) 之差稱爲 互信息(mutual information)。決策樹學習中的信息增益等價於訓練數據集中類與特徵的互信息。

1.4 信息增益率

信息增益率的大小時相對於訓練數據集而言的,在分類問題困難時,也就是說在訓練數據集的經驗熵大的時候,信息增益值會偏大,信息增益值會偏大。反之,信息增益值會偏小。使用信息增益比(information gain ratio)可以對這一問題進行校正,這是特徵選擇的另一準則。

特徵 AA 對訓練數據集 DD信息增益率 gR(D,A)g_R(D,A) 定義爲其信息增益 g(D,A)g(D,A) 與訓練數據集 DD 的經驗熵 H(D)H(D) 之比:

gR(D,A)=g(D,A)H(D)(6)g_R(D,A)=\frac{g(D,A)}{H(D)} \tag{6}

2. 決策樹生成


設訓練集數據爲 DDD|D| 表示其樣本容量,即樣本個數。

設有 KK 個類 Ck,k=1,2,...,KC_k ,k=1,2,...,KCk|C_k| 爲屬於類 CkC_k 的樣本個數,因此 k=1KCk=D\sum_{k=1}^K|C_k|=|D|

設特徵 AAnn 個不同的取值 {a1,a2,...,an}\{a_1,a_2,...,a_n\},根據特徵 AA 的取值將 DD 劃分爲 nn 個子集 D1,D2,...,DnD_1,D_2,...,D_nDi|D_i|DiD_i 的樣本個數,i=1nDi=D\sum_{i=1}^n|D_i|=D

記子集 DiD_i 中屬於類 CkC_k 的樣本的集合爲 DikD_{ik},即 Dik=DCkD_{ik}=D \bigcap C_kDik|D_{ik}|DikD_{ik} 的樣本個數。

因此,信息增益以及信息增益率計算如下:

算法1 信息增益及信息增益率的算法

輸入:訓練數據集 DD 和特徵 AA

輸出:特徵 AA 對訓練數據集 DD 的信息增益 g(D,A)g(D,A) 以及信息增益率 gR(D,A)g_R(D,A)

(1)計算數據集 DD 的經驗熵 H(D)H(D)

H(D)=i=1nCkDlog2DkD(7)H(D)=-\sum_{i=1}^n \frac{|C_k|}{|D|}log_2\frac{|D_k|}{|D|} \tag{7}

(2)計算特徵 AA 對數據集 DD 的經驗條件熵 H(DA)H(D|A)

H(DA)=i=1nDiDH(Di)=i=1nDiDi=1nDikDilog2DikDi(8) \begin{aligned} H(D|A)& =\sum_{i=1}^n \frac{|D_i|}{|D|}H(D_i)\\ & = - \sum_{i=1}^n \frac{|D_i|}{|D|} \sum_{i=1}^n \frac{|D_{ik}|}{|D_i|}log_2\frac{|D_{ik}|}{|D_i|}\\ \end{aligned}\tag{8}

(3)計算信息增益:

g(D,A)=H(D)H(DA)(9)g(D,A)=H(D)-H(D|A) \tag{9}

(4)計算信息增益率:

gR(D,A)=g(D,A)H(D)(10)g_R(D,A)=\frac{g(D,A)}{H(D)} \tag{10}

2.1 ID3 算法

輸入:訓練數據集 DD,特徵集 AA,閾值 ε\varepsilon

輸出:決策樹 TT

(1)若 DD 中所有實例屬於同一類 CkC_k,則 TT 爲單節點樹,並將類 CkC_k 作爲該節點的類標記,返回 TT

(2)若 A=A=\oslash,則 TT 爲單節點樹,並將 DD 中實例數最大的類 CkC_k 作爲該節點的類標記,返回 TT

(3)否則,按算法1(1-3)計算 AA 中各特徵對 DD 的信息增益,選擇信息增益最大的特徵 AgA_g

(4)如果 AgA_g 的信息增益小於閾值 ε\varepsilon,則置 TT 爲單節點樹,並將 DD 中實例數最大的類 CKC_K 作爲該節點的類標記,返回 TT

(5)否則,對 AgA_g 的每一可能值 aia_i,依 Ag=aiA_g=a_iDD 分隔爲若干非空子集 DiD_i,將 DiD_i 中實例數最大的類作爲標記,構建子節點,由節點及其自己點構造數 TT,返回 TT

(6)對第 ii 個子節點,以 DiD_i 爲訓練集,以 A{Ag}A-\{A_g\} 爲特徵集,遞歸地調用步(1)~步(5),得到子樹 TiT_i,返回 TiT_i

2.2 C4.5 算法

C4.5 與 ID3 相比,只是將 ID3 算法中的信息增益換成了信息增益率,因此有:

輸入:訓練數據集 DD,特徵集 AA,閾值 ε\varepsilon

輸出:決策樹 TT

(1)若 DD 中所有實例屬於同一類 CkC_k,則 TT 爲單節點樹,並將類 CkC_k 作爲該節點的類標記,返回 TT

(2)若 A=A=\oslash,則 TT 爲單節點樹,並將 DD 中實例數最大的類 CkC_k 作爲該節點的類標記,返回 TT

(3)否則,按算法1(1-4)計算 AA 中各特徵對 DD 的信息增益,選擇信息增益最大的特徵 AgA_g

(4)如果 AgA_g 的信息增益小於閾值 ε\varepsilon,則置 TT 爲單節點樹,並將 DD 中實例數最大的類 CKC_K 作爲該節點的類標記,返回 TT

(5)否則,對 AgA_g 的每一可能值 aia_i,依 Ag=aiA_g=a_iDD 分隔爲若干非空子集 DiD_i,將 DiD_i 中實例數最大的類作爲標記,構建子節點,由節點及其自己點構造數 TT,返回 TT

(6)對第 ii 個子節點,以 DiD_i 爲訓練集,以 A{Ag}A-\{A_g\} 爲特徵集,遞歸地調用步(1)~步(5),得到子樹 TiT_i,返回 TiT_i

3. 決策樹剪枝

3.1 預剪枝

預剪枝是在決策樹生成之前通過限制條件,來防止樹過度生長而造成過擬合,常見的有:

  1. 最大深度 max_depth

  2. 每片葉子的最小樣本數 min_samples_leaf

  3. 每次分裂的最小樣本數 min_samples_split

  4. 最大特徵數 max_features

關於這些參數的詳細介紹,可以參考這篇文章

3.2 後剪枝

後剪枝先從訓練集生成一顆完整決策樹,通過向損失函數中增加模型複雜度懲罰來對已生成的決策樹進行簡化。

設樹 TT 的葉節點個數爲 T|T|tt 是樹 TT 的葉節點,該葉節點有 NtN_t 個樣本點,其中 kk 類的樣本點有 NtkN_{tk} 個,k=1,2,...,Kk=1,2,...,KHt(T)H_t(T) 爲葉節點 tt 上的經驗熵,$\alpha \geq 0 $ 爲參數,則決策樹後剪枝的損失函數(Cost-Complexity Pruning)可以定義爲:

Cα(T)=t=1TNtHt(T)+αT(11)C_{\alpha}(T)=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha |T|\tag{11}

其中經驗熵爲:

Ht(T)=kNikNtlogNikNt(12)H_t(T)=-\sum_{k} \frac{N_{ik}}{N_t}log\frac{N_{ik}}{N_t} \tag{12}

令 (11) 式右端第一項爲 C(T)C(T)

C(T)=t=1TNtHt(T)=t=1TNtkNikNtlogNikNt(13) \begin{aligned} C(T)& =\sum_{t=1}^{|T|}N_tH_t(T) \\ & = -\sum_{t=1}^{|T|}N_t\sum_{k} \frac{N_{ik}}{N_t}log\frac{N_{ik}}{N_t} \\ \end{aligned}\tag{13}

因此式 (11) 可以寫作:

Cα(T)=C(T)+αT(14)C_{\alpha}(T)=C(T)+\alpha |T| \tag{14}

其中,C(T)C(T) 表示模型對訓練數據的預測誤差,即模型與訓練數據的擬合程度;

T|T| 表示模型複雜度,參數 α0\alpha \geq 0 控制兩者之間的影響。較大的 α\alpha 促使選擇較簡單的模型,較小的 α\alpha 促使選擇較複雜的模型, α=0\alpha=0 意味者只考慮模型與訓練數據的擬合程度,不考慮模型的複雜度。

剪枝,就是當 α\alpha 確定時,選擇損失函數最小的模型,即損失函數最小的子樹。

α\alpha 確定時,子樹越大,往往與訓練數據的擬合越好,但是模型的複雜度越高;相反,子樹越小,模型複雜度就越低,但是往往與訓練數據的擬合不好,損失函數正好表示了對兩者的平衡。

可以看到,ID3 和 C4.5 決策樹生成只考慮了通過提高信息增益或信息增益率來對訓練數據進行更好的擬合。而決策樹剪枝通過優化損失函數還考慮了減小模型複雜度。

決策樹生成學習局部的模型,而決策樹剪枝學習整體的模型。

算法2 樹的剪枝算法

輸入:生成算法產生的整個樹 TT,參數 α\alpha

輸出:修剪後的子樹 TαT_{\alpha}

(1)計算每個節點的經驗熵;

(2)遞歸地從樹的葉節點向上回縮:

\quad \quad設一組葉節點回縮到其父節點之前與之後的整體樹分別爲 TBT_BTAT_A,其對應的損失函數值分別是 Cα(TB)C_{\alpha}(T_B)Cα(TA)C_{\alpha}(T_A),如果:

Cα(TA)Cα(TB)(15)C_{\alpha}(T_A)\leq C_{\alpha}(T_B) \tag{15}

\quad \quad 則進行剪枝,即將父節點變爲新的葉節點。

(3)返回 (2) ,直到不能繼續爲止,得到損失函數最小的子樹 TαT_{\alpha}

參考文獻

[1] 李航. 統計學習方法[M]. 北京: 清華大學出版社, 2012: 55-66.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章