好記憶的機器學習面試--決策樹

文章目錄

1. 什麼是決策樹

1.1 決策樹的基本思想

其實用一下圖片能更好的理解LR模型和決策樹模型算法的根本區別，我們可以思考一下一個決策問題：是否去相親，一個女孩的母親要給這個女海介紹對象。

大家都看得很明白了吧！LR模型是一股腦兒的把所有特徵塞入學習，而決策樹更像是編程語言中的if-else一樣，去做條件判斷，這就是根本性的區別。

1.2 “樹”的成長過程

決策樹基於“樹”結構進行決策的，這時我們就要面臨兩個問題：

“樹”怎麼長。
這顆“樹”長到什麼時候停。

弄懂了這兩個問題，那麼這個模型就已經建立起來了，決策樹的總體流程是“分而治之”的思想，一是自根至葉的遞歸過程，一是在每個中間節點尋找一個“劃分”屬性，相當於就是一個特徵屬性了。接下來我們來逐個解決以上兩個問題。

這顆“樹”長到什麼時候停

當前結點包含的樣本全屬於同一類別，無需劃分；例如：樣本當中都是決定去相親的，屬於同一類別，就是不管特徵如何改變都不會影響結果，這種就不需要劃分了。
當前屬性集爲空，或是所有樣本在所有屬性上取值相同，無法劃分；例如：所有的樣本特徵都是一樣的，就造成無法劃分了，訓練集太單一。
當前結點包含的樣本集合爲空，不能劃分。

1.3 "樹"怎麼長

在生活當中，我們都會碰到很多需要做出決策的地方，例如：吃飯地點、數碼產品購買、旅遊地區等，你會發現在這些選擇當中都是依賴於大部分人做出的選擇，也就是跟隨大衆的選擇。其實在決策樹當中也是一樣的，當大部分的樣本都是同一類的時候，那麼就已經做出了決策。

我們可以把大衆的選擇抽象化，這就引入了一個概念就是純度，想想也是如此，大衆選擇就意味着純度越高。好，在深入一點，就涉及到一句話：信息熵越低，純度越高。我相信大家或多或少都聽說過“熵”這個概念，信息熵通俗來說就是用來度量包含的“信息量”，如果樣本的屬性都是一樣的，就會讓人覺得這包含的信息很單一，沒有差異化，相反樣本的屬性都不一樣，那麼包含的信息量就很多了。

一到這裏就頭疼了，因爲馬上要引入信息熵的公式，其實也很簡單：

$Ent(D)=-\sum_{k=1}^{|y|}p_klog_2p_k$

Pk表示的是：當前樣本集合D中第k類樣本所佔的比例爲Pk。

信息增益

廢話不多說直接上公式：

看不懂的先不管，簡單一句話就是：劃分前的信息熵–劃分後的信息熵。表示的是向純度方向邁出的“步長”。

好了，有了前面的知識，我們就可以開始“樹”的生長了。

1.3.1 ID3算法

解釋：在根節點處計算信息熵，然後根據屬性依次劃分並計算其節點的信息熵，用根節點信息熵–屬性節點的信息熵=信息增益，根據信息增益進行降序排列，排在前面的就是第一個劃分屬性，其後依次類推，這就得到了決策樹的形狀，也就是怎麼“長”了。

如果不理解的，可以查看我分享的圖片示例，結合我說的，包你看懂：

不過，信息增益有一個問題：對可取值數目較多的屬性有所偏好，例如：考慮將“編號”作爲一個屬性。爲了解決這個問題，引出了另一個算法C4.5。

1.3.2 C4.5

爲了解決信息增益的問題，引入一個信息增益率：

$Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$

其中：

$IV(a)=-\sum_{v=1}^{V}\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}$

屬性a的可能取值數目越多(即V越大)，則IV(a)的值通常就越大。**信息增益比本質：是在信息增益的基礎之上乘上一個懲罰參數。特徵個數較多時，懲罰參數較小；特徵個數較少時，懲罰參數較大。**不過有一個缺點：

缺點：信息增益率偏向取值較少的特徵。

使用信息增益率：基於以上缺點，並不是直接選擇信息增益率最大的特徵，而是現在候選特徵中找出信息增益高於平均水平的特徵，然後在這些特徵中再選擇信息增益率最高的特徵。

1.3.3 CART算法

數學家真實聰明，想到了另外一個表示純度的方法，叫做基尼指數(討厭的公式)：

$Gini(D)=\sum_{k=1}^{|y|}\sum_{k_{'}\neq k}p_{k}p_{k^{'}}=1-\sum_{k=1}^{|y|}{p_k}^2$

表示在樣本集合中一個隨機選中的樣本被分錯的概率。舉例來說，現在一個袋子裏有3種顏色的球若干個，伸手進去掏出2個球，顏色不一樣的概率，這下明白了吧。Gini(D)越小，數據集D的純度越高。

舉個例子

假設現在有特徵 “學歷”，此特徵有三個特徵取值： “本科”，“碩士”， “博士”，

當使用“學歷”這個特徵對樣本集合D進行劃分時，劃分值分別有三個，因而有三種劃分的可能集合，劃分後的子集如下：

1.劃分點： “本科”，劃分後的子集合： {本科}，{碩士，博士}

2.劃分點： “碩士”，劃分後的子集合： {碩士}，{本科，博士}

3.劃分點： “碩士”，劃分後的子集合： {博士}，{本科，碩士}}

對於上述的每一種劃分，都可以計算出基於 劃分特徵= 某個特徵值 將樣本集合D劃分爲兩個子集的純度：

$Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_2)+\frac{|D_2|}{|D|}Gini(D_2)$

因而對於一個具有多個取值（超過2個）的特徵，需要計算以每一個取值作爲劃分點，對樣本D劃分之後子集的純度Gini(D,Ai)，(其中Ai 表示特徵A的可能取值)

然後從所有的可能劃分的Gini(D,Ai)中找出Gini指數最小的劃分，這個劃分的劃分點，便是使用特徵A對樣本集合D進行劃分的最佳劃分點。到此就可以長成一棵“大樹”了。

1.3.4 三種不同的決策樹

ID3：取值多的屬性，更容易使數據更純，其信息增益更大。

訓練得到的是一棵龐大且深度淺的樹：不合理。
C4.5：採用信息增益率替代信息增益。
CART：以基尼係數替代熵，最小化不純度，而不是最大化信息增益。

2. 樹形結構爲什麼不需要歸一化?

因爲數值縮放不影響分裂點位置，對樹模型的結構不造成影響。
按照特徵值進行排序的，排序的順序不變，那麼所屬的分支以及分裂點就不會有不同。而且，樹模型是不能進行梯度下降的，因爲構建樹模型（迴歸樹）尋找最優點時是通過尋找最優分裂點完成的，因此樹模型是階躍的，階躍點是不可導的，並且求導沒意義，也就不需要歸一化。

既然樹形結構（如決策樹、RF）不需要歸一化，那爲何非樹形結構比如Adaboost、SVM、LR、Knn、KMeans之類則需要歸一化。

對於線性模型，特徵值差別很大時，運用梯度下降的時候，損失等高線是橢圓形，需要進行多次迭代才能到達最優點。
但是如果進行了歸一化，那麼等高線就是圓形的，促使SGD往原點迭代，從而導致需要的迭代次數較少。

3. 分類決策樹和迴歸決策樹的區別

Classification And Regression Tree(CART)是決策樹的一種，CART算法既可以用於創建分類樹（Classification Tree），也可以用於創建迴歸樹（Regression Tree），兩者在建樹的過程稍有差異。

參考文章：經典算法詳解–CART分類決策樹、迴歸樹和模型樹

4. 決策樹如何剪枝

決策樹的剪枝基本策略有預剪枝 (Pre-Pruning) 和後剪枝 (Post-Pruning)。

預剪枝：其中的核心思想就是，在每一次實際對結點進行進一步劃分之前，先採用驗證集的數據來驗證如果劃分是否能提高劃分的準確性。如果不能，就把結點標記爲葉結點並退出進一步劃分；如果可以就繼續遞歸生成節點。
後剪枝：後剪枝則是先從訓練集生成一顆完整的決策樹，然後自底向上地對非葉結點進行考察，若將該結點對應的子樹替換爲葉結點能帶來泛化性能提升，則將該子樹替換爲葉結點。

參考文章：決策樹及決策樹生成與剪枝

5. 代碼實現

GitHub：https://github.com/NLP-LOVE/ML-NLP/blob/master/Machine%20Learning/3.Desition%20Tree/DecisionTree.ipynb

作者：@mantchs

GitHub：https://github.com/NLP-LOVE/ML-NLP

歡迎大家加入討論！共同完善此項目！羣號：【541954936】

好記憶的機器學習面試--決策樹

文章目錄

1. 什麼是決策樹

1.1 決策樹的基本思想

1.2 “樹”的成長過程

這顆“樹”長到什麼時候停

1.3 "樹"怎麼長

1.3.1 ID3算法

1.3.2 C4.5

1.3.3 CART算法

舉個例子

1.3.4 三種不同的決策樹

2. 樹形結構爲什麼不需要歸一化?

3. 分類決策樹和迴歸決策樹的區別

4. 決策樹如何剪枝

5. 代碼實現

python gdal 安裝使用（Windows， python 3.6.8）

BERT預訓練模型的演進過程！(附代碼)

Transformer各層網絡結構詳解！面試必備！(附代碼實現)

XLNet預訓練模型，看這篇就夠了！(代碼實現)

seq2seq通俗理解----編碼器和解碼器(TensorFlow實現)

【Model Log】模型評估指標可視化，自動畫Loss、Accuracy曲線圖工具，無需人工參與!

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結