ID3 是建立了概念學習系統(CLS)算法
決策樹算法的優點如下:
(
1
)分類精度高;
(
2
)成的模式簡單;
(
3
)
對噪聲數據有很好的健壯性
決策樹算法的優點如下:
(
1
)分類精度高;
(
2
)成的模式簡單;
(
3
)
對噪聲數據有很好的健壯性
決策樹算法的優點如下:
(
1
)分類精度高;
(
2
)成的模式簡單;
(
3
)
對噪聲數據有很好的健壯性
決策樹算法的優點如下:(1)分類精度高;(2)成的模式簡單;(3)對噪聲數據有很好的健壯性最早的決策時算法是由
Hunt
等人於
1966
年提出的
CLS
。當前最有影
響的決策樹算法是
Quinlan
於
1986
年提出的
ID3
和
1993
年提出的
C4.5
。
ID3
只能處理離散型描述屬性,它選擇信息增益最大的屬性劃分訓練樣本,
其目的是進行分枝時系統的熵最小,從而提高算法的運算速度和精確度。
ID3
算法的主要缺陷是,用信息增益作爲選擇分枝屬性的標準時,偏向於取
值較多的屬性,而在某些情況下,這類屬性可能不會提供太多有價值的信
息。
C4.5
是
ID3
算法的改進算法,不僅可以處理離散型描述屬性,還能處
理連續性描述屬性。
C4.5
採用了信息增益比作爲選擇分枝屬性的標準,彌
補了
ID3
算法的不足。
最早的決策時算法是由
Hunt
等人於
1966
年提出的
CLS
。當前最有影
響的決策樹算法是
Quinlan
於
1986
年提出的
ID3
和
1993
年提出的
C4.5
。
ID3
只能處理離散型描述屬性,它選擇信息增益最大的屬性劃分訓練樣本,
其目的是進行分枝時系統的熵最小,從而提高算法的運算速度和精確度。
ID3
算法的主要缺陷是,用信息增益作爲選擇分枝屬性的標準時,偏向於取
值較多的屬性,而在某些情況下,這類屬性可能不會提供太多有價值的信
息。
C4.5
是
ID3
算法的改進算法,不僅可以處理離散型描述屬性,還能處
理連續性描述屬性。
C4.5
採用了信息增益比作爲選擇分枝屬性的標準,彌
補了
ID3
算法的不足。
最早的決策時算法是由Hunt等人於1966年提出的CLS。當前最有影響的決策樹算法是Quinlan於1986年提出的ID3和1993年提出的C4.5。1.選擇一個屬性放置在根節點,爲每個可能的屬性值產生一個分支
3.在每個分支上遞歸地重複這個過程,僅使用真正到達這個分支的樣本
(1) 初始化決策樹T爲只含一個樹根(X,Q),其中X是全體樣本集,Q爲全體屬性集。
(5) 選擇具有最高信息增益的屬性B作爲節點(X’,Q’)的測試屬性;
{從該節點(X’, Q’)伸出分支,代表測試輸出B=bi;
求得X中B值等於bi的子集Xi,並生成相應的葉節點(Xi’,Q’-{B});}
(1)信息增益的計算依賴於特徵數目較多的特徵,而屬性取值最多的屬性並不一定最優。
(3)ID3是單變量決策樹(在分枝節點上只考慮單個屬性),許多複雜概念的表達困難,屬性相互關係強調不夠,容易導致決策樹中子樹的重複或有些屬性在決策樹的某一路徑上被檢驗多次
將該結點上的所有數據樣本按照連續型描述屬性的具體數值,由小到大進行排序,得到屬性值的取值序列{A1c,A2c,……Atotalc}。
在取值序列中生成total-1個分割點。第i(0<i<total)個分割點的取值設置爲Vi=(Aic+A(i+1)c)/2,它可以將該節點上的數據集劃分爲兩個子集。
從total-1個分割點中選擇最佳分割點。對於每一個分割點劃分數據集的方式,C4.5計算它的信息增益比,並且從中選擇信息增益比最大的分割點來劃分數據集。
(3)採用了一種後剪枝方法 避免樹的高度無節制的增長,避免過度擬合數據, 該方法使用訓練樣本集本身來估計剪枝前後的誤差,從而決定是否真正剪枝。
4)對於缺失值的處理
在某些情況下,可供使用的數據可能缺少某些屬性的值。假如〈x,c(x)〉是樣本集S中的一個訓練實例,但是其屬性A的值A(x)未知。處理缺少屬性值的一種策略是賦給它結點n所對應的訓練實例中該屬性的最常見值;另外一種更復雜的策略是爲A的每個可能值賦予一個概率。例如,給定一個布爾屬性A,如果結點n包含6個已知A=1和4個A=0的實例,那麼A(x)=1的概率是0.6,而A(x)=0的概率是0.4。於是,實例x的60%被分配到A=1的分支,40%被分配到另一個分支。這些片斷樣例(fractional examples)的目的是計算信息增益,另外,如果有第二個缺少值的屬性必須被測試,這些樣例可以在後繼的樹分支中被進一步細分。
C4.5就是使用這種方法處理缺少的屬性值。
C4.5算法繼承了ID3算法的優點,並在以下幾方面對ID3算法進行了改進:
1) 用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;
2) 在樹構造過程中進行剪枝;
3) 能夠完成對連續屬性的離散化處理;
4) 能夠對不完整數據進行處理。
C4.5算法的優缺點
優點:產生的分類規則易於理解,準確率較高。
缺點:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致算法的低效。此外,C4.5只適合於能夠駐留於內存的數據集,當訓練集大得無法在內存容納時程序無法運行