二、決策樹（Decision Tree）

算法基本思想：根據數據集中數據的特徵進行逐步的推理、判斷，從而達到分類或預測的目的。決策樹屬於圖解法，因爲類似於樹的結構，因此成爲決策樹。常見的決策樹算法有ID3、C4.5以及CART。

算法舉例：

在構造決策樹時，我們需要解決的第一個問題就是，當前數據集上哪個特徵在劃分數據分類時起決定性作用。爲了找到決定性的特徵，劃分出最好的結果，我們必須評估每一個特徵，完成測試後，原始數據集就被會分爲幾個數據子集。這些數據子集會分佈在第一個決策點的所有分支上。如果某個分支下的數據屬於同一類型，則當前無需閱讀的垃圾郵件已經正確地劃分數據分類，無需進一步對數據集進行分割。如果數據子集內的數據不屬於同一類型，則需要根據下一層特徵重複劃分數據子集，直到所有具有相同類型的數據均在一個數據子集內。

算法的優缺點及適用範圍：

優點：計算複雜度不高，輸入結果易於理解，對中間值的缺失不敏感，可以處理不相關特徵數據；

缺點：可能會產生過度匹配問題；

使用數據類型：數值型和標稱型。

相關問題：

劃分數據集的最大原則是：將無序的數據變得更加有序。組織雜亂無章數據的一種方法就是使用信息論度量信息，信息論是量化處理信息的分支科學。

信息增益：在劃分數據集之前之後信息發生的變化稱爲信息增益，知道如何計算信息增益，我們就可以計算每個特徵劃分數據集獲得的信息增益，獲得信息增益最高的特徵就是最好的選擇。

如果待分類的數據可能劃分在多個分類之中，則符號xi的信息定義爲：