決策樹(decisions tree)和ID3算法

決策樹和決策規則是解決實際應用中分類問題的強大的數據挖掘方法。


首先,介紹一下分類的基本原理:

分類是一個學習函數的過程,該函數把數據項映射到其中一個預定義的類中。若一個樣本包含屬性值向量和一個相應的類,則基於歸納學習算法的每個分類就指定爲該樣本集的輸入。歸納學習的目標是構建一個分類模型,也成爲分類器,它可以根據有效的屬性輸入值預測某個實體所屬的類。


決策樹定義:每一個結點是一個decision,葉子結點是最終的決定。

如圖簡單示意,決策樹可以被用來作爲分類器


決策樹易於被理解,即使對於非技術人員

在一元樹中,對於每個內部節點,檢驗函數都只使用一個屬性進行檢驗。結點的輸出分支對應於該節點的所有可能的檢驗結果。

那麼我們如何能夠從一個數據集中構造決策樹?


初步思路爲用隨機的splitting plane來分割數據集中的點

如右圖


找到更智能的分割方法


引入entropy熵其中n是需要分成的類個數

fS (yi )是第yi的類在S中的頻率。


ID3算法使分割後的子集的熵儘可能小,使entrogy gain儘可能大


其中fS (Ai )是Ai佔S的頻率,SAi是S的按A分割的子集之一


進階的算法還有C4.5和C5算法等


對於這種自上而下的決策樹生成算法,最重要的決策是樹節點屬性的選擇。

ID3和C4.5算法的屬性選擇基準都是使樣本中的信息熵最小化。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章