WIKI
Decision tree learning uses a decision tree (as a predictive model) to go from observations about an item (represented in the branches) to conclusions about the item's target value (represented in the leaves).
決策樹學習算法包含特徵選擇、決策樹的生成與決策樹的剪枝
特徵選擇
信息增益
熵
表示隨機變量不確定性的度量
條件熵
隨機變量X給定的條件下隨機變量Y的條件熵定義爲:
X給定條件下Y的條件概率分佈的熵對X的數學期望
信息增益
特徵A對訓練數據集D的信息增益g(D,A)定義爲:
集合D的經驗熵H(D)與特徵A給定條件下D的經驗條件熵H(D|A)只差
根據信息增益準則的特徵選取的方法:對訓練數據集(或子集)D,計算其每個特徵的信息增益,並比較它們的大小,選擇信息增益最大的特徵。
信息增益的算法
信息增益比
特徵A對訓練數據集D的信息增益比定義爲:
其信息增益比g(D,A)與訓練數據集D關於特徵A的值的熵HA(D)之比
決策樹的生成
ID3算法
ID3相當於用極大似然法進行概率模型的選擇。
C4.5算法
C4.5在生成的過程中,用信息增益比來選擇特徵。
決策樹的剪枝
決策樹的剪枝通過決策樹整體的損失函數或代價函數來實現。
損失函數
決策樹的生成只考慮了通過提高信息增益(或信息增益比)對訓練數據進行更好的擬合,而決策樹的剪枝通過優化損失函數還考慮了減小模型複雜度。決策樹的生成學習局部的模型,而決策樹的剪枝學習整體的模型。
樹的剪枝算法
CART算法
CART是在給定輸入隨機變量X條件下輸出隨機變量Y的條件概率分佈的學習方法。
CART生成
決策樹的生成就是遞歸地構建二叉決策樹的過程。對迴歸樹用平方誤差最小化準則,對分類樹用基尼指數最小化準則,進行特徵選擇,生成二叉樹。
-
迴歸樹的生成
最小二乘迴歸樹生成算法
-
分類樹的生成
分類樹用基尼指數選擇最優特徵,同時決定該特徵的最優二值切分點。
CART生成算法
PS:算法停止計算的條件是結點中的樣本個數小於預定闕值,或樣本集的基尼指數小於預定闕值(樣本基本屬於同一類),或者沒有更多特徵。
CART剪枝