從決策樹到gbdt

原創

qq924178473

2019-05-07 05:27

1、決策樹用做分類和迴歸

問題：

決策樹如何做迴歸？

2、決策樹的生成算法有哪幾種

id3、c4.5、CART

3、決策樹的結構：

內部節點表示特徵，葉節點表示類。

決策樹的內部節點的分支是多分支（一個內部節點可以有多個子節點）。

決策樹每一層的特徵（屬性）都不相同。

4、決策樹的特徵選擇：熵、條件熵、互信息、信息增益

決策樹的特徵選擇的簡單描述：如果一個特徵具有更好的分類能力，那麼依此特徵將數據集分割成子集，使得子集在當前條件下有最好的分類，那麼就應該選擇這個特徵，也就是說使用該特徵劃分子集後，各個子集內類別的不確定性更低（就是說各個子集內的樣本幾乎都屬於1個類別）。

熵的公式：

條件熵的公式：，即X給定的條件下Y的條件概率分佈的熵對X的的數學期望，即條件熵的均值。

信息增益就是互信息。

根據信息增益選擇特徵的方法是：對訓練數據集D，計算每個特徵的信息增益，並比較它們的大小，選擇信息增益最大的特徵。即給定條件下條件熵最小（也就是給定條件下類別純度最高）。

在實際應用中，經驗熵、經驗條件熵、信息增益的計算方法：

給定數據集D，類別K，某個特徵A：

經驗熵：

經驗條件熵：

信息增益：相減。

5、信息增益與信息增益比：

信息增益比的公式：，其中是特徵A的值的熵。

信息增益會傾向於選擇特徵的取值較多的特徵，比如以物品的id爲特徵，一個物品對應一個id，則id3算法傾向於將每個數據自成一類，以id爲特徵的條件信息熵趨向於0，則信息增益最大，但是以id爲特徵沒有意義，所以需要對其進行懲罰，懲罰係數就是以id爲特徵的情況下，id的個數爲熵，將該熵作爲分母，也就是說特徵的取值個數越多，熵越大，對以該特徵爲條件得到的信息增益被懲罰的越厲害。

信息增益比也有缺點，傾向於特徵取值較少的特徵。

所以實際應用中，先用特徵增益選取特徵，然後再從其中使用信息增益比選取特徵。

參考：https://www.zhihu.com/question/22928442/answer/117189907

6、ID3與C4.5的優缺點及區別:

參考：https://www.zhihu.com/question/27205203?sort=created

處理問題的目標相同：

C4.5和ID3都只能做分類。

樣本數據差異：

ID3只能對離散變量進行處理，C4.5也可以處理連續變量（使用二分法，先對特徵進行排序，然後取兩個數的中間值爲閾值進行二分切分）。

ID3對缺失值敏感，C4.5可以處理缺失值。

樣本特徵上的差異：

7、可以使用ID3或者C4.5進行特徵選擇。