數據挖掘十大經典算法(1) C4.5

機器學習中,決策樹是一個預測模型;他代表的是對象屬性與對象值之間的一種映射關係。樹中每個節點表示某個對象,而每個分叉路徑則代表的某個可能的屬性值,而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的對象的值。決策樹僅有單一輸出,若欲有複數輸出,可以建立獨立的決策樹以處理不同輸出。

從數據產生決策樹的機器學習技術叫做決策樹學習, 通俗說就是決策樹。

決策樹學習也是數據挖掘中一個普通的方法。在這裏,每個決策樹都表述了一種樹型結構,他由他的分支來對該類型的對象依靠屬性進行分類。每個決策樹可以依靠對源數據庫的分割進行數據測試。這個過程可以遞歸式的對樹進行修剪。 當不能再進行分割或一個單獨的類可以被應用於某一分支時,遞歸過程就完成了。另外,隨機森林分類器將許多決策樹結合起來以提升分類的正確率。

決策樹同時也可以依靠計算條件概率來構造。決策樹如果依靠數學的計算方法可以取得更加理想的效果。



決策樹是如何工作的
決策樹一般都是自上而下的來生成的。
選擇分割的方法有好幾種,但是目的都是一致的:對目標類嘗試進行最佳的分割。
從根到葉子節點都有一條路徑,這條路徑就是一條“規則”。
決策樹可以是二叉的,也可以是多叉的。
對每個節點的衡量:
1) 通過該節點的記錄數
2) 如果是葉子節點的話,分類的路徑
3) 對葉子節點正確分類的比例。
有些規則的效果可以比其他的一些規則要好。

由於ID3算法在實際應用中存在一些問題,於是Quilan提出了C4.5算法,嚴格上說C4.5只能是ID3的一個改進算法。相信大家對ID3算法都很.熟悉了,這裏就不做介紹。
C4.5算法繼承了ID3算法的優點,並在以下幾方面對ID3算法進行了改進:
1) 用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;
2) 在樹構造過程中進行剪枝;
3) 能夠完成對連續屬性的離散化處理;
4) 能夠對不完整數據進行處理。
C4.5算法有如下優點:產生的分類規則易於理解,準確率較高。其缺點是:在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致算法的低效。此外,C4.5只適合於能夠駐留於內存的數據集,當訓練集大得無法在內存容納時程序無法運行。





來自搜索的其他內容:



C4.5算法是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法.
分類決策樹算法是從大量事例中進行提取分類規則的自上而下的決策樹.
決策樹的各部分是:
根: 學習的事例集.
枝: 分類的判定條件.
葉: 分好的各個類.
§4.3.2 ID3算法
1.概念提取算法CLS
1) 初始化參數C={E},E包括所有的例子,爲根.
2) IF C中的任一元素e同屬於同一個決策類則創建一個葉子
節點YES終止.
ELSE 依啓發式標準,選擇特徵Fi={V1,V2,V3,...Vn}並創建
判定節點

劃分C爲互不相交的N個集合C1,C2,C3,...,Cn;
3) 對任一個Ci遞歸.
2. ID3算法
1) 隨機選擇C的一個子集W (窗口).
2) 調用CLS生成W的分類樹DT(強調的啓發式標準在後).
3) 順序掃描C蒐集DT的意外(即由DT無法確定的例子).
4) 組合W與已發現的意外,形成新的W.
5) 重複2)到4),直到無例外爲止.

啓發式標準:
只跟本身與其子樹有關,採取信息理論用熵來量度.
熵是選擇事件時選擇自由度的量度,其計算方法爲
P = freq(Cj,S)/|S|;
INFO(S)= - SUM( P*LOG(P) ) ; SUM()函數是求j從1到n和.
Gain(X)=Info(X)-Infox(X);
Infox(X)=SUM( (|Ti|/|T|)*Info(X);
爲保證生成的決策樹最小,ID3算法在生成子樹時,選取使生成的子樹的熵(即Gain(S))最小的的特徵來生成子樹.

§4.3.3: ID3算法對數據的要求
1. 所有屬性必須爲離散量.
2. 所有的訓練例的所有屬性必須有一個明確的值.
3. 相同的因素必須得到相同的結論且訓練例必須唯一.

§4.3.4: C4.5對ID3算法的改進:
1. 熵的改進,加上了子樹的信息.
Split_Infox(X)= - SUM( (|T|/|Ti| ) *LOG(|Ti|/|T|) );
Gain ratio(X)= Gain(X)/Split Infox(X);
2. 在輸入數據上的改進.
1)
因素屬性的值可以是連續量,C4.5對其排序並分成不同的集合後按照ID3算法當作離散量進行處理,但結論屬性的值必須是離散值.
2) 訓練例的因素屬性值可以是不確定的,以 ? 表示,但結論必須是確定的
3. 對已生成的決策樹進行裁剪,減小生成樹的規模.
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章