1、什麼是決策樹
決策樹(Decision Tree)是在已知各種情況發生概率的基礎上,通過構成決策樹來求取淨現值的期望值大於等於零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。其圖如下所示,
樹分爲:根結點、分支、結點及樹葉四個組成部分。
2、決策樹的構造
2.1熵的概念
信息熵的計算:,式中Pi代表不同事件發生的概率,信息熵總爲正值,且熵值大小與信息的不確定性成正相關。
2.2決策樹的建立規則
依據上述香農信息理論可知,要想不斷增加信息的確定性,在每一個結點都應該選取能使當前結點下的分類的不確定性最大的減小,即使信息熵的值最大程度的減小,這樣選取的結點纔會使信息的不確定性以最大速度降低。
假設有以下數據,根據客戶的年齡、收入、是否爲學生、信用好壞等推斷是否會購買電腦,建立決策樹
1、直接看是否買電腦的信息熵:Info(D) = -9/14*log(9/14) - 5/14*log(5/14) = 0.940 bits
2、分別計算每個影響條件做爲根結點的信息熵
增量爲0.940 - 0.694 = 0.246 bits,類似其它增量分別爲:income:0.029, student = 0.151, creadit_rating = 0.048
增量爲以age做爲根結點時信息增量最大,即能最大程度的減小信息的不確定性
建立後的形式如下
按以下計算方法依次遞歸重複建立每個分支的決策子樹,即可完成整個決策樹的建立。
算法運行過程中應該注意的幾點:
1、樹以代表訓練樣本的單個結點開始
2、如果樣本都在同一個類,則該結點成爲樹葉,並用該類標號
3、使用基於信息熵的計算方式,選擇能夠最好將樣本分類的發生
4、對於所有的屬性均要求爲離散的,連續值城需先離散化
5、對於出現在結點上的屬性,後續步驟中均無需再考慮之
6、所有結點屬於同一類即可停止
7、沒有剩餘屬性可用於分類時停止
其它算法:
C4.5;
classification and regression Trees (CART),
與此相同均爲貪心算法且自上而下
決策樹的剪枝--避免過度擬合