二、決策樹(Decision Tree)

二、決策樹(Decision Tree)

算法基本思想:根據數據集中數據的特徵進行逐步的推理、判斷,從而達到分類或預測的目的。決策樹屬於圖解法,因爲類似於樹的結構,因此成爲決策樹。常見的決策樹算法有ID3、C4.5以及CART。

算法舉例:

         在構造決策樹時,我們需要解決的第一個問題就是,當前數據集上哪個特徵在劃分數據分類時起決定性作用。爲了找到決定性的特徵,劃分出最好的結果,我們必須評估每一個特徵,完成測試後,原始數據集就被會分爲幾個數據子集。這些數據子集會分佈在第一個決策點的所有分支上。如果某個分支下的數據屬於同一類型,則當前無需閱讀的垃圾郵件已經正確地劃分數據分類,無需進一步對數據集進行分割。如果數據子集內的數據不屬於同一類型,則需要根據下一層特徵重複劃分數據子集,直到所有具有相同類型的數據均在一個數據子集內。

算法的優缺點及適用範圍

優點:計算複雜度不高,輸入結果易於理解,對中間值的缺失不敏感,可以處理不相關特徵數據;

缺點:可能會產生過度匹配問題;

使用數據類型:數值型和標稱型。

相關問題

劃分數據集的最大原則是:將無序的數據變得更加有序。組織雜亂無章數據的一種方法就是使用信息論度量信息,信息論是量化處理信息的分支科學。

信息增益:在劃分數據集之前之後信息發生的變化稱爲信息增益,知道如何計算信息增益,我們就可以計算每個特徵劃分數據集獲得的信息增益,獲得信息增益最高的特徵就是最好的選擇。

如果待分類的數據可能劃分在多個分類之中,則符號xi的信息定義爲:

其中是選擇該分類的概率。

         熵,就是所有類別所有可能值包含的信息期望值:

參考知識:

熵在信息論中的定義如下:

如果有一個系統S內存在多個事件 , 每個事件的機率分佈 ,則每個事件本身提供的信息量爲

稱爲自信息。(若對數函數以2爲底,單位是比特(bit);若對數函數以e爲底,單位爲奈特(nat);若對數函數以10爲底,單位爲哈特(hartly)。)

如英語有26個字母,假如每個字母在文章中出現次數平均的話,每個字母的信息量爲


而漢字常用的有2500個,假如每個漢字在文章中出現次數平均的話,每個漢字的信息量爲


這些事件的自信息的均值:


稱爲熵。則,所有字母的平均信息量爲


則,常用漢字的平均信息量爲


這個平均消息量就是消息熵。

 

算法流程


生成樹可以根據遞歸的方法生成

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章