好記憶的機器學習面試--決策樹

1. 什麼是決策樹

1.1 決策樹的基本思想

其實用一下圖片能更好的理解LR模型和決策樹模型算法的根本區別,我們可以思考一下一個決策問題:是否去相親,一個女孩的母親要給這個女海介紹對象。

image

大家都看得很明白了吧!LR模型是一股腦兒的把所有特徵塞入學習,而決策樹更像是編程語言中的if-else一樣,去做條件判斷,這就是根本性的區別。

1.2 “樹”的成長過程

決策樹基於“樹”結構進行決策的,這時我們就要面臨兩個問題 :

  • “樹”怎麼長。
  • 這顆“樹”長到什麼時候停。

弄懂了這兩個問題,那麼這個模型就已經建立起來了,決策樹的總體流程是“分而治之”的思想,一是自根至葉的遞歸過程,一是在每個中間節點尋找一個“劃分”屬性,相當於就是一個特徵屬性了。接下來我們來逐個解決以上兩個問題。

這顆“樹”長到什麼時候停

  • 當前結點包含的樣本全屬於同一類別,無需劃分;例如:樣本當中都是決定去相親的,屬於同一類別,就是不管特徵如何改變都不會影響結果,這種就不需要劃分了。
  • 當前屬性集爲空,或是所有樣本在所有屬性上取值相同,無法劃分;例如:所有的樣本特徵都是一樣的,就造成無法劃分了,訓練集太單一。
  • 當前結點包含的樣本集合爲空,不能劃分。

1.3 "樹"怎麼長

在生活當中,我們都會碰到很多需要做出決策的地方,例如:吃飯地點、數碼產品購買、旅遊地區等,你會發現在這些選擇當中都是依賴於大部分人做出的選擇,也就是跟隨大衆的選擇。其實在決策樹當中也是一樣的,當大部分的樣本都是同一類的時候,那麼就已經做出了決策。

我們可以把大衆的選擇抽象化,這就引入了一個概念就是純度,想想也是如此,大衆選擇就意味着純度越高。好,在深入一點,就涉及到一句話:信息熵越低,純度越高。我相信大家或多或少都聽說過“熵”這個概念,信息熵通俗來說就是用來度量包含的“信息量”,如果樣本的屬性都是一樣的,就會讓人覺得這包含的信息很單一,沒有差異化,相反樣本的屬性都不一樣,那麼包含的信息量就很多了。

一到這裏就頭疼了,因爲馬上要引入信息熵的公式,其實也很簡單:

Ent(D)=k=1ypklog2pkEnt(D)=-\sum_{k=1}^{|y|}p_klog_2p_k

Pk表示的是:當前樣本集合D中第k類樣本所佔的比例爲Pk。

信息增益

廢話不多說直接上公式:

image

看不懂的先不管,簡單一句話就是:劃分前的信息熵–劃分後的信息熵。表示的是向純度方向邁出的“步長”。

好了,有了前面的知識,我們就可以開始“樹”的生長了。

1.3.1 ID3算法

解釋:在根節點處計算信息熵,然後根據屬性依次劃分並計算其節點的信息熵,用根節點信息熵–屬性節點的信息熵=信息增益,根據信息增益進行降序排列,排在前面的就是第一個劃分屬性,其後依次類推,這就得到了決策樹的形狀,也就是怎麼“長”了。

如果不理解的,可以查看我分享的圖片示例,結合我說的,包你看懂:

  1. 第一張圖.jpg
  2. 第二張圖.jpg
  3. 第三張圖.jpg
  4. 第四張圖.jpg

不過,信息增益有一個問題:對可取值數目較多的屬性有所偏好,例如:考慮將“編號”作爲一個屬性。爲了解決這個問題,引出了另一個 算法C4.5。

1.3.2 C4.5

爲了解決信息增益的問題,引入一個信息增益率:

Gain_ratio(D,a)=Gain(D,a)IV(a)Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}

其中:

IV(a)=v=1VDvDlog2DvDIV(a)=-\sum_{v=1}^{V}\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}

屬性a的可能取值數目越多(即V越大),則IV(a)的值通常就越大。**信息增益比本質: 是在信息增益的基礎之上乘上一個懲罰參數。特徵個數較多時,懲罰參數較小;特徵個數較少時,懲罰參數較大。**不過有一個缺點:

  • 缺點:信息增益率偏向取值較少的特徵。

使用信息增益率:基於以上缺點,並不是直接選擇信息增益率最大的特徵,而是現在候選特徵中找出信息增益高於平均水平的特徵,然後在這些特徵中再選擇信息增益率最高的特徵。

1.3.3 CART算法

數學家真實聰明,想到了另外一個表示純度的方法,叫做基尼指數(討厭的公式):

Gini(D)=k=1ykkpkpk=1k=1ypk2Gini(D)=\sum_{k=1}^{|y|}\sum_{k_{'}\neq k}p_{k}p_{k^{'}}=1-\sum_{k=1}^{|y|}{p_k}^2

表示在樣本集合中一個隨機選中的樣本被分錯的概率。舉例來說,現在一個袋子裏有3種顏色的球若干個,伸手進去掏出2個球,顏色不一樣的概率,這下明白了吧。Gini(D)越小,數據集D的純度越高。

舉個例子

假設現在有特徵 “學歷”,此特徵有三個特徵取值: “本科”,“碩士”, “博士”,

當使用“學歷”這個特徵對樣本集合D進行劃分時,劃分值分別有三個,因而有三種劃分的可能集合,劃分後的子集如下:

1.劃分點: “本科”,劃分後的子集合 : {本科},{碩士,博士}

2.劃分點: “碩士”,劃分後的子集合 : {碩士},{本科,博士}

3.劃分點: “碩士”,劃分後的子集合 : {博士},{本科,碩士}}

對於上述的每一種劃分,都可以計算出基於 劃分特徵= 某個特徵值 將樣本集合D劃分爲兩個子集的純度:

Gini(D,A)=D1DGini(D2)+D2DGini(D2)Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_2)+\frac{|D_2|}{|D|}Gini(D_2)

因而對於一個具有多個取值(超過2個)的特徵,需要計算以每一個取值作爲劃分點,對樣本D劃分之後子集的純度Gini(D,Ai),(其中Ai 表示特徵A的可能取值)

然後從所有的可能劃分的Gini(D,Ai)中找出Gini指數最小的劃分,這個劃分的劃分點,便是使用特徵A對樣本集合D進行劃分的最佳劃分點。到此就可以長成一棵“大樹”了。

1.3.4 三種不同的決策樹

  • ID3:取值多的屬性,更容易使數據更純,其信息增益更大。

    訓練得到的是一棵龐大且深度淺的樹:不合理。

  • C4.5:採用信息增益率替代信息增益。

  • CART:以基尼係數替代熵,最小化不純度,而不是最大化信息增益。

2. 樹形結構爲什麼不需要歸一化?

因爲數值縮放不影響分裂點位置,對樹模型的結構不造成影響。
按照特徵值進行排序的,排序的順序不變,那麼所屬的分支以及分裂點就不會有不同。而且,樹模型是不能進行梯度下降的,因爲構建樹模型(迴歸樹)尋找最優點時是通過尋找最優分裂點完成的,因此樹模型是階躍的,階躍點是不可導的,並且求導沒意義,也就不需要歸一化。

既然樹形結構(如決策樹、RF)不需要歸一化,那爲何非樹形結構比如Adaboost、SVM、LR、Knn、KMeans之類則需要歸一化。

對於線性模型,特徵值差別很大時,運用梯度下降的時候,損失等高線是橢圓形,需要進行多次迭代才能到達最優點。
但是如果進行了歸一化,那麼等高線就是圓形的,促使SGD往原點迭代,從而導致需要的迭代次數較少。

3. 分類決策樹和迴歸決策樹的區別

Classification And Regression Tree(CART)是決策樹的一種,CART算法既可以用於創建分類樹(Classification Tree),也可以用於創建迴歸樹(Regression Tree),兩者在建樹的過程稍有差異。

參考文章:經典算法詳解–CART分類決策樹、迴歸樹和模型樹

4. 決策樹如何剪枝

決策樹的剪枝基本策略有 預剪枝 (Pre-Pruning) 和 後剪枝 (Post-Pruning)。

  • 預剪枝:其中的核心思想就是,在每一次實際對結點進行進一步劃分之前,先採用驗證集的數據來驗證如果劃分是否能提高劃分的準確性。如果不能,就把結點標記爲葉結點並退出進一步劃分;如果可以就繼續遞歸生成節點。
  • 後剪枝:後剪枝則是先從訓練集生成一顆完整的決策樹,然後自底向上地對非葉結點進行考察,若將該結點對應的子樹替換爲葉結點能帶來泛化性能提升,則將該子樹替換爲葉結點。

參考文章:決策樹及決策樹生成與剪枝

5. 代碼實現

GitHub:https://github.com/NLP-LOVE/ML-NLP/blob/master/Machine%20Learning/3.Desition%20Tree/DecisionTree.ipynb


作者:@mantchs

GitHub:https://github.com/NLP-LOVE/ML-NLP

歡迎大家加入討論!共同完善此項目!羣號:【541954936】NLP面試學習羣

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章