1、決策樹用做分類和迴歸
問題:
決策樹如何做迴歸?
2、決策樹的生成算法有哪幾種
id3、c4.5、CART
3、決策樹的結構:
內部節點表示特徵,葉節點表示類。
決策樹的內部節點的分支是多分支(一個內部節點可以有多個子節點)。
決策樹每一層的特徵(屬性)都不相同。
4、決策樹的特徵選擇:熵、條件熵、互信息、信息增益
決策樹的特徵選擇的簡單描述:如果一個特徵具有更好的分類能力,那麼依此特徵將數據集分割成子集,使得子集在當前條件下有最好的分類,那麼就應該選擇這個特徵,也就是說使用該特徵劃分子集後,各個子集內類別的不確定性更低(就是說各個子集內的樣本幾乎都屬於1個類別)。
熵的公式:
條件熵的公式:,即X給定的條件下Y的條件概率分佈的熵對X的的數學期望,即條件熵的均值。
信息增益就是互信息。
根據信息增益選擇特徵的方法是:對訓練數據集D,計算每個特徵的信息增益,並比較它們的大小,選擇信息增益最大的特徵。即給定條件下條件熵最小(也就是給定條件下類別純度最高)。
在實際應用中,經驗熵、經驗條件熵、信息增益的計算方法:
給定數據集D,類別K,某個特徵A:
經驗熵:
經驗條件熵:
信息增益:相減。
5、信息增益與信息增益比:
信息增益比的公式:,其中是特徵A的值的熵。
信息增益會傾向於選擇特徵的取值較多的特徵,比如以物品的id爲特徵,一個物品對應一個id,則id3算法傾向於將每個數據自成一類,以id爲特徵的條件信息熵趨向於0,則信息增益最大,但是以id爲特徵沒有意義,所以需要對其進行懲罰,懲罰係數就是以id爲特徵的情況下,id的個數爲熵,將該熵作爲分母,也就是說特徵的取值個數越多,熵越大,對以該特徵爲條件得到的信息增益被懲罰的越厲害。
信息增益比也有缺點,傾向於特徵取值較少的特徵。
所以實際應用中,先用特徵增益選取特徵,然後再從其中使用信息增益比選取特徵。
參考:https://www.zhihu.com/question/22928442/answer/117189907
6、ID3與C4.5的優缺點及區別:
參考:https://www.zhihu.com/question/27205203?sort=created
處理問題的目標相同:
C4.5和ID3都只能做分類。
樣本數據差異:
ID3只能對離散變量進行處理,C4.5也可以處理連續變量(使用二分法,先對特徵進行排序,然後取兩個數的中間值爲閾值進行二分切分)。
ID3對缺失值敏感,C4.5可以處理缺失值。
樣本特徵上的差異:
7、可以使用ID3或者C4.5進行特徵選擇。
8、決策樹剪枝的原理及公式:
等號右邊第一項意思是:生成的決策樹,有T個葉子節點,每個葉子節點上可能有多個樣本,並且可能屬於不同的類別,如果一個葉子節點上的樣本的類別比較單一,那麼經驗熵就會很小。
9、CART樹是分類迴歸樹,它假定決策樹是二叉樹
不同於ID3、C4.5算法的決策樹,這倆算法得到決策樹是多支的,而CART樹是二叉的。
10、CART迴歸樹的生成準則:
對於迴歸樹用平方誤差最小化準則,具體做法:
遍歷所有的特徵,在各個特徵上尋找切分點,將樣本劃分爲2個區域,尋找的切分點滿足的條件是:兩個區域內的樣本的輸出y的均值與該區域內所有的樣本的標籤之間的平方誤差最小,之後在兩個區域上重複上面的步驟。
11、這就表明一個問題:CART迴歸樹在各個層上使用的特徵是會有重複的,而ID3、C4.5生成的決策樹在各個層上特徵是不重複使用的。
12、也說明CART迴歸樹的大致結構(輸出結果,也即學習到的參數)就是:
每一層都會記錄先挑選哪個特徵,在每個內部節點也會有對該特徵進行二分的切分閾值。
13、可以想象CART迴歸樹的工作(預測)原理:
輸入一個樣本到決策樹模型,模型的根節點會選中樣本的某個特徵索引,然後將該特徵的特徵值與模型記錄的閾值進行比較,判斷將樣本劃分到左分支還是右分支,然後在子樹上重複上述步驟,直到葉子節點。
14、CART分類樹的生成準則:
分類樹用基尼指數選擇最優特徵及特徵上的最優二值切分點。
15、基尼指數的定義
16、實際中怎麼用基尼指數:
即:實際中用條件基尼指數,並且找條件基尼指數最小的特徵及切分點。
17、adaboost的算法流程:
初始化訓練數據的權值分佈
基於已有的權值訓練基本分類器
計算基本分類器在訓練數據集上的分類誤差率(分類誤差率的公式):
計算基本分類器的係數(係數計算公式):
更新訓練數據集的權值分佈(更新公式,分子)
循環上面步驟,獲得M個基本分類器及各個分類器對應的係數,將其組合到一起,獲得最終分類器: