決策樹的典型面試考點

原創

2020-07-05 15:52

1、寫下信息熵的公式，並說下熵最大和最小的含義？

我們假設數據中某列特徵有 $n$ 個取值，這列特徵也可以認爲是隨機變量。其中 $p_{i }$ 代表這列特徵取值爲 $i$ 的概率.
如果每個特徵值取值的概率都是一樣大，因爲你不知道改選哪個值，那麼說明隨機變量不確定性最大，也就是熵最大。
如果極端情況，n個特徵某個特徵的取值概率佔比0.99999999，說明基本上就可以確定這個特徵取值肯定會選這個概率最大的特徵，隨機變量不確定性很小，熵也就最小。

$H(X)=-\sum_{i=1}^{n} p_{i} \log p_{i}$

2、條件熵和信息熵有什麼不同，公式又是什麼？

我們假設數據中有兩列特徵X和Y，也就是兩組隨機變量，條件熵是已知特徵X的情況下，取值Y的信息熵，具體公式如下：
$H(Y | X)=\sum_{i=1}^{n} p_{i} H\left(Y | X=i\right)$
這裏，因爲X的取值有很多種，這裏這裏遍歷X的取值，每個X的取值都要不同Y的信息熵，這裏我們通過取加權平均來計算，也就是和下面求期望的方式計算類似。
$E[X]=x_{1} p_{1}+x_{2} p_{2}+\cdots x_{n} p_{n}$

3、寫一下信息增益的公式？ID3樹的使用

信息增益 = 信息熵 - 條件熵

在ID3算法中，選擇的是信息增益來進行特徵選擇，信息增益大的特徵優先選擇

$g(D, A)=H(D)-H(D | A)$

4、上面信息增益的公式有什麼問題？信息增益（率）比改進了什麼？C4.5樹的使用

在C4.5算法中，選擇的是信息增益比來選擇特徵，以減少信息增益容易選擇特徵值多的特徵的缺點

$g_{R}(D, A)=\frac{g(D, A)}{H_{A}(D)}$
其中 $H_{A}(D)=-\sum_{i=1}^{n} p_{i} \log p_{i}$
A是數據的一個特徵。 $H_{A}(D)$ 屬於對信息增益的懲罰參數，特徵A取值越多懲罰參數越大，取值越少懲罰參數越小；從而克服信息增益偏向於選取取值較多的特徵的問題。

5、什麼是基尼指數？CART樹的使用

基尼係數的公式爲：
$GINI*\left(D\right)=\sum_{i=1}^{k}p_k*\left(1-p_k\right)=1-\sum_{i=1}^{k}p_k^2$

從公式中可以看出來，基尼指數的意義是從數據集D中隨機抽取兩個樣本類別標識不一致的概率。基尼指數越小，數據集的純度越高。

相比於信息增益，信息增益比等作爲特徵選擇方法，基尼指數省略了對數計算，運算量比較小，也比較容易理解，所以CART樹選擇使用基尼係數用來做特徵選擇

6、決策樹算法的優點和缺點？

相對於其他數據挖掘算法，決策樹在以下幾個方面擁有優勢：

決策樹易於理解和實現. 人們在通過解釋後都有能力去理解決策樹所表達的意義。
對於決策樹，數據的準備往往是簡單或者是不必要的 . 其他的技術往往要求先把數據一般化，比如去掉多餘的或者空白的屬性。
能夠同時處理數據型和常規型屬性。其他的技術往往要求數據屬性的單一。
在相對短的時間內能夠對大型數據源做出可行且效果良好的結果。
對缺失值不敏感
可以處理不相關特徵數據
效率高，決策樹只需要一次構建，反覆使用，每一次預測的最大計算次數不超過決策樹的深度。

決策樹的缺點

對連續性的字段比較難預測。
對有時間順序的數據，需要很多預處理的工作。
當類別太多時，錯誤可能就會增加的比較快。
一般的算法分類的時候，只是根據一個字段來分類。
在處理特徵關聯性比較強的數據時表現得不是太好

7、隨機森林算法的算法流程

1、從原始訓練數據集中，應用bootstrap方法有放回地隨機抽取k個新的自助樣本集，並由此構建k棵分類迴歸樹，每次未被抽到的樣本組成了K個袋外數據(out-of- bag,BBB)。

2、設有n個特徵，則在每一棵樹的每個節點處隨機抽取m個特徵，通過計算每個特徵蘊含的信息量，特徵中選擇一個最具有分類能力的特徵進行節點分裂。

3、每棵樹最大限度地生長，不做任何剪裁

4、將生成的多棵樹組成隨機森林，用隨機森林對新的數據進行分類，
分類結果按樹分類器（隨機森林用CART樹作爲基學習器）投票多少而定。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

決策樹的典型面試考點

1、寫下信息熵的公式，並說下熵最大和最小的含義？

2、條件熵和信息熵有什麼不同，公式又是什麼？

3、寫一下信息增益的公式？ID3樹的使用

4、上面信息增益的公式有什麼問題？信息增益（率）比改進了什麼？C4.5樹的使用

5、什麼是基尼指數？CART樹的使用

6、決策樹算法的優點和缺點？

7、隨機森林算法的算法流程

Java單例模式（懶漢式）線程安全的實現方式

Caused by: org.hibernate.boot.archive.spi.ArchiveException: Could not build ClassFile異常怎麼解決

Springboot 2.x源碼解析之源碼下載與搭建

我的Python學習之路01-附練習題

Java常用的設計模式代碼實現方式彙總

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結