ID3\C4.5算法
ID3算法
ID3算法,ID的意思是 Iteritive Dichotomiser(迭代二分類器)。
它的基本原理是對所有特徵求信息增益,選出信息增益最大的特徵,按照該特徵對數據進行分組 (二分類,所以分了兩組),然後,如果每組中所有的樣本都屬於同一類,則創建該節點爲葉子節點;否則,遞歸上面的步驟,一直到所有節點都爲葉子節點結束遞歸。
C4.5算法
C4.5(Classifier4.5) 算法是對 ID3 算法的改進,就是將 ID3中的信息增益改爲求信息增益比。
名詞解釋
信息增益:
特徵 A 對訓練數據集D的信息增益g(D,A),定位集合D的經驗熵H(D)與特徵A給定條件下D的經驗條件熵H(D|A)之差,即:
信息增益比:
特徵A對訓練數據集D的信息增益比 定義爲其信息增益 g(D, A) 與訓練數據集 D關於特徵A的值的熵 之比,即:
其中,,n是特徵A取值的個數。