機器學習-決策樹-ID3, C4.5

概念:

決策樹:節點間的組織方式像一棵倒樹,以attribute爲節點,以attribute的不同值爲分支。

 

重點概念:

1. 信息熵:

熵是無序性(或不確定性)的度量指標。假如事件A的全概率劃分是(A1,A2,...,An),每部分發生的概率是(p1,p2,...,pn),那信息熵定義爲:(通常以2爲底數,所以信息熵的單位是bit


熵越大,越無序。當事件A發生概率很大時,熵很小(所以有負號),越穩定。

由上可知,我們希望構造一棵熵遞減的樹(屬性加得越多,越穩定),而且熵縮小地越快越好,這樣可以得到一棵最矮的樹。

2. 信息增益:


3. 集合S對於屬性A的分裂信息

4. 

 

5. 樹的構造:

樹的構造涉及到屬性的選擇。哪個屬性作爲根節點呢?首先根據每個屬性計算屬性相對應的信息熵,然後計算不考慮任何屬性的整體信息熵。有了以上兩類信息熵,便可以計算針對每個屬性的信息增益以及信息增益率。選擇信息增益最大的爲優先屬性(ID3)或選擇信息增益率最大的屬性爲優先屬性(C4.5

6. 圖的形象表示:

 

7. 決策樹優點:

a) 訓練數據可以包含錯誤。

b) 訓練數據可以包含缺少屬性值的實例。

8. 避免過度擬合:

a) 錯誤率降低修剪

i. 修剪一個結點的步驟:

ii. ·刪除以此結點爲根的子樹,使它成爲葉子結點,把和該結點關聯的訓練樣例的最常見分類賦給它。

iii. ·僅當修剪後的樹對於驗證集合的性能不比原來的樹差時才刪除該結點。

iv. 反覆修剪結點,每次總是選擇那些刪除後可以最大提高決策樹在驗證集合上的精度的結點。直到進一步的修剪是有害的爲止(即降低了在驗證集合上的精度)。

b) 規則後修剪(C4.5

i. 從訓練集合推導出決策樹,增長決策樹直到儘可能好地模擬訓練數據,允許過度擬合發生。

ii. 將決策樹轉化爲等價的規則集合,方法是從根結點到葉子結點的每一條路徑創建一條規則。

iii. 通過刪除任何能導致估計精度提高的前件(precondition)來修剪(泛化)每一條規則。

iv. 按照修剪過的規則的估計精度對它們進行排序,並按照這樣的順序應用這些規則來分類後來的實例。

9. ID3C4.5比較

a) ID3用信息增益選擇屬性時偏向於選擇分枝比較多的屬性值,即取值多的屬性;C4.5削弱了這個屬性。

b) ID3不能處理連貫屬性(相互有關係的屬性)

 

參考鏈接

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章