決策樹的典型面試考點

1、寫下信息熵的公式,並說下熵最大和最小的含義?

我們假設數據中某列特徵有nn個取值,這列特徵也可以認爲是隨機變量。其中 pip_{i } 代表這列特徵取值爲 ii 的概率.
如果每個特徵值取值的概率都是一樣大,因爲你不知道改選哪個值,那麼說明隨機變量不確定性最大,也就是熵最大。
如果極端情況,n個特徵某個特徵的取值概率佔比0.99999999,說明基本上就可以確定這個特徵取值肯定會選這個概率最大的特徵,隨機變量不確定性很小,熵也就最小。

H(X)=i=1npilogpi H(X)=-\sum_{i=1}^{n} p_{i} \log p_{i}

2、條件熵和信息熵有什麼不同,公式又是什麼?

我們假設數據中有兩列特徵X和Y,也就是兩組隨機變量,條件熵是已知特徵X的情況下,取值Y的信息熵,具體公式如下:
H(YX)=i=1npiH(YX=i) H(Y | X)=\sum_{i=1}^{n} p_{i} H\left(Y | X=i\right)
這裏,因爲X的取值有很多種,這裏這裏遍歷X的取值,每個X的取值都要不同Y的信息熵,這裏我們通過取加權平均來計算,也就是和下面求期望的方式計算類似。
E[X]=x1p1+x2p2+xnpn E[X]=x_{1} p_{1}+x_{2} p_{2}+\cdots x_{n} p_{n}

3、寫一下信息增益的公式?ID3樹的使用

信息增益 = 信息熵 - 條件熵

在ID3算法中,選擇的是信息增益來進行特徵選擇,信息增益大的特徵優先選擇

g(D,A)=H(D)H(DA) g(D, A)=H(D)-H(D | A)

4、上面信息增益的公式有什麼問題?信息增益(率)比改進了什麼?C4.5樹的使用

在C4.5算法中,選擇的是信息增益比來選擇特徵,以減少信息增益容易選擇特徵值多的特徵的缺點

gR(D,A)=g(D,A)HA(D) g_{R}(D, A)=\frac{g(D, A)}{H_{A}(D)}
其中HA(D)=i=1npilogpi H_{A}(D)=-\sum_{i=1}^{n} p_{i} \log p_{i}
A是數據的一個特徵。HA(D)H_{A}(D) 屬於對信息增益的懲罰參數,特徵A取值越多懲罰參數越大,取值越少懲罰參數越小;從而克服信息增益偏向於選取取值較多的特徵的問題。

5、什麼是基尼指數?CART樹的使用

基尼係數的公式爲:
GINI(D)=i=1kpk(1pk)=1i=1kpk2 GINI*\left(D\right)=\sum_{i=1}^{k}p_k*\left(1-p_k\right)=1-\sum_{i=1}^{k}p_k^2

從公式中可以看出來,基尼指數的意義是從數據集D中隨機抽取兩個樣本類別標識不一致的概率。基尼指數越小,數據集的純度越高。

相比於信息增益,信息增益比等作爲特徵選擇方法,基尼指數省略了對數計算,運算量比較小,也比較容易理解,所以CART樹選擇使用基尼係數用來做特徵選擇

6、決策樹算法的優點和缺點?

相對於其他數據挖掘算法,決策樹在以下幾個方面擁有優勢:

  • 決策樹易於理解和實現. 人們在通過解釋後都有能力去理解決策樹所表達的意義。

  • 對於決策樹,數據的準備往往是簡單或者是不必要的 . 其他的技術往往要求先把數據一般化,比如去掉多餘的或者空白的屬性。

  • 能夠同時處理數據型和常規型屬性。其他的技術往往要求數據屬性的單一。

  • 在相對短的時間內能夠對大型數據源做出可行且效果良好的結果。

  • 對缺失值不敏感

  • 可以處理不相關特徵數據

  • 效率高,決策樹只需要一次構建,反覆使用,每一次預測的最大計算次數不超過決策樹的深度。

決策樹的缺點

  • 對連續性的字段比較難預測。

  • 對有時間順序的數據,需要很多預處理的工作。

  • 當類別太多時,錯誤可能就會增加的比較快。

  • 一般的算法分類的時候,只是根據一個字段來分類。

  • 在處理特徵關聯性比較強的數據時表現得不是太好

7、隨機森林算法的算法流程

1、從原始訓練數據集中,應用bootstrap方法有放回地隨機抽取k個新的自助樣本集, 並由此構建k棵分類迴歸樹,每次未被抽到的樣本組成了K個袋外數據(out-of- bag,BBB)。

2、設有n個特徵,則在每一棵樹的每個節點處隨機抽取m個特徵,通過計算 每個特徵蘊含的信息量,特徵中選擇一個最具有分類能力的特徵進行節點分裂。

3、每棵樹最大限度地生長, 不做任何剪裁

4、將生成的多棵樹組成隨機森林, 用隨機森林對新的數據進行分類,
分類結果按樹分類器(隨機森林用CART樹作爲基學習器)投票多少而定。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章