一句話解釋ID3\C4.5算法

ID3\C4.5算法

ID3算法

ID3算法,ID的意思是 Iteritive Dichotomiser(迭代二分類器)。

它的基本原理是對所有特徵求信息增益,選出信息增益最大的特徵,按照該特徵對數據進行分組 D1,D2D_1, D_2(二分類,所以分了兩組),然後,如果每組中所有的樣本都屬於同一類,則創建該節點爲葉子節點;否則,遞歸上面的步驟,一直到所有節點都爲葉子節點結束遞歸。

C4.5算法

C4.5(Classifier4.5) 算法是對 ID3 算法的改進,就是將 ID3中的信息增益改爲求信息增益比

名詞解釋

信息增益:
特徵 A 對訓練數據集D的信息增益g(D,A),定位集合D的經驗熵H(D)與特徵A給定條件下D的經驗條件熵H(D|A)之差,即:
g(D,A)=H(D)H(DA)g(D,A) = H(D) - H(D | A)

信息增益比:
特徵A對訓練數據集D的信息增益比 gR(D,A)g_R(D, A) 定義爲其信息增益 g(D, A) 與訓練數據集 D關於特徵A的值的熵 HA(D)H_A(D)之比,即:
gR(D,A)=g(D,A)HA(D)g_R(D, A) = \frac{g(D, A)}{H_A(D)}
其中,HA(D)=i=1nDiDlog2DiDH_A(D) = -\sum_{i=1}^n \frac{|D_i|}{|D|}log_2 \frac{|D_i|}{D},n是特徵A取值的個數。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章