從決策樹到gbdt

1、決策樹用做分類和迴歸

問題:

決策樹如何做迴歸?

2、決策樹的生成算法有哪幾種

id3、c4.5、CART

3、決策樹的結構:

內部節點表示特徵,葉節點表示類。

決策樹的內部節點的分支是多分支(一個內部節點可以有多個子節點)。

決策樹每一層的特徵(屬性)都不相同。

4、決策樹的特徵選擇:熵、條件熵、互信息、信息增益

決策樹的特徵選擇的簡單描述:如果一個特徵具有更好的分類能力,那麼依此特徵將數據集分割成子集,使得子集在當前條件下有最好的分類,那麼就應該選擇這個特徵,也就是說使用該特徵劃分子集後,各個子集內類別的不確定性更低(就是說各個子集內的樣本幾乎都屬於1個類別)。

熵的公式:

條件熵的公式:,即X給定的條件下Y的條件概率分佈的熵對X的的數學期望,即條件熵的均值。

信息增益就是互信息。

根據信息增益選擇特徵的方法是:對訓練數據集D,計算每個特徵的信息增益,並比較它們的大小,選擇信息增益最大的特徵。即給定條件下條件熵最小(也就是給定條件下類別純度最高)。

在實際應用中,經驗熵、經驗條件熵、信息增益的計算方法:

給定數據集D,類別K,某個特徵A:

經驗熵:

經驗條件熵:

信息增益:相減。

5、信息增益與信息增益比:

信息增益比的公式:,其中是特徵A的值的熵。

信息增益會傾向於選擇特徵的取值較多的特徵,比如以物品的id爲特徵,一個物品對應一個id,則id3算法傾向於將每個數據自成一類,以id爲特徵的條件信息熵趨向於0,則信息增益最大,但是以id爲特徵沒有意義,所以需要對其進行懲罰,懲罰係數就是以id爲特徵的情況下,id的個數爲熵,將該熵作爲分母,也就是說特徵的取值個數越多,熵越大,對以該特徵爲條件得到的信息增益被懲罰的越厲害。

信息增益比也有缺點,傾向於特徵取值較少的特徵。

所以實際應用中,先用特徵增益選取特徵,然後再從其中使用信息增益比選取特徵。

參考:https://www.zhihu.com/question/22928442/answer/117189907

6、ID3與C4.5的優缺點及區別:

參考:https://www.zhihu.com/question/27205203?sort=created

處理問題的目標相同:

C4.5和ID3都只能做分類。

樣本數據差異:

ID3只能對離散變量進行處理,C4.5也可以處理連續變量(使用二分法,先對特徵進行排序,然後取兩個數的中間值爲閾值進行二分切分)。

ID3對缺失值敏感,C4.5可以處理缺失值。

樣本特徵上的差異:

7、可以使用ID3或者C4.5進行特徵選擇。

8、決策樹剪枝的原理及公式:

等號右邊第一項意思是:生成的決策樹,有T個葉子節點,每個葉子節點上可能有多個樣本,並且可能屬於不同的類別,如果一個葉子節點上的樣本的類別比較單一,那麼經驗熵就會很小。

9、CART樹是分類迴歸樹,它假定決策樹是二叉樹

不同於ID3、C4.5算法的決策樹,這倆算法得到決策樹是多支的,而CART樹是二叉的。

10、CART迴歸樹的生成準則:

對於迴歸樹用平方誤差最小化準則,具體做法:

遍歷所有的特徵,在各個特徵上尋找切分點,將樣本劃分爲2個區域,尋找的切分點滿足的條件是:兩個區域內的樣本的輸出y的均值與該區域內所有的樣本的標籤之間的平方誤差最小,之後在兩個區域上重複上面的步驟。

11、這就表明一個問題:CART迴歸樹在各個層上使用的特徵是會有重複的,而ID3、C4.5生成的決策樹在各個層上特徵是不重複使用的。

12、也說明CART迴歸樹的大致結構(輸出結果,也即學習到的參數)就是:

每一層都會記錄先挑選哪個特徵,在每個內部節點也會有對該特徵進行二分的切分閾值。

13、可以想象CART迴歸樹的工作(預測)原理:

輸入一個樣本到決策樹模型,模型的根節點會選中樣本的某個特徵索引,然後將該特徵的特徵值與模型記錄的閾值進行比較,判斷將樣本劃分到左分支還是右分支,然後在子樹上重複上述步驟,直到葉子節點。

14、CART分類樹的生成準則:

分類樹用基尼指數選擇最優特徵及特徵上的最優二值切分點。

15、基尼指數的定義

16、實際中怎麼用基尼指數:

即:實際中用條件基尼指數,並且找條件基尼指數最小的特徵及切分點。

17、adaboost的算法流程:

初始化訓練數據的權值分佈

基於已有的權值訓練基本分類器

計算基本分類器在訓練數據集上的分類誤差率(分類誤差率的公式):

計算基本分類器的係數(係數計算公式):

更新訓練數據集的權值分佈(更新公式,分子)

循環上面步驟,獲得M個基本分類器及各個分類器對應的係數,將其組合到一起,獲得最終分類器:

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章