決策樹算法理論

原創

A784586

2020-06-22 02:08

決策樹算法理論

0. 機器學習中分類和預測算法的評估：

準確率
速度
強壯行
可規模性
可解釋性

1. 什麼是決策樹/判定樹（decision tree)?

判定樹是一個類似於流程圖的樹結構：其中，每個內部結點表示在一個屬性上的測試，每個分支代表一個屬性輸出，而每個樹葉結點代表類或類分佈。樹的最頂層是根結點。

下圖展示根據天氣等特徵某天玩不玩某種運動？

2. 機器學習中分類方法中的一個重要算法

3. 構造決策樹的基本算法【判斷一個人是否會買電腦？】

3.1 熵（entropy）概念：

信息和抽象，如何度量？

1948年，香農提出了 ”信息熵(entropy)“的概念

一條信息的信息量大小和它的不確定性有直接的關係，要搞清楚一件非常非常不確定的事情，或者

是我們一無所知的事情，需要了解大量信息==>信息量的度量就等於不確定性的多少

例子：猜世界盃冠軍，假如一無所知，猜多少次？每個隊奪冠的機率不是相等的；

比特(bit)來衡量信息的多少。

以下是熵的公式：

如上圖公式，若各個概率相等則，最終值爲6.

如果概率不同，值會小余6。猜32個球隊，32個值，用二分法猜就是6次。

變量的不確定性越大，熵也就越大

3.1 決策樹歸納算法（ID3）

1970-1980， J.Ross.Quinlan, ID3算法

選擇屬性判斷結點

信息獲取量(Information Gain)：Gain(A) = Info(D) - Infor_A(D)

通過A來作爲節點分類獲取了多少信息

類似，Gain(income) = 0.029, Gain(student) = 0.151, Gain(credit_rating)=0.048

所以，選擇age作爲第一個根節點

重複以上建樹的過程即可。

算法描述：

樹以代表訓練樣本的單個結點開始（步驟1）。
如果樣本都在同一個類，則該結點成爲樹葉，並用該類標號（步驟2 和3）。
否則，算法使用稱爲信息增益的基於熵的度量作爲啓發信息，選擇能夠最好地將樣本分類的屬性（步驟6）。該屬性成爲該結點的“測試”或“判定”屬性（步驟7）。在算法的該版本中，
所有的屬性都是分類的，即離散值。連續屬性必須離散化。
對測試屬性的每個已知的值，創建一個分枝，並據此劃分樣本（步驟8-10）。
算法使用同樣的過程，遞歸地形成每個劃分上的樣本判定樹。一旦一個屬性出現在一個結點上，就不必該結點的任何後代上考慮它（步驟13）。
遞歸劃分步驟僅當下列條件之一成立停止：
(a) 給定結點的所有樣本屬於同一類（步驟2 和3）。
(b)沒有剩餘屬性可以用來進一步劃分樣本（步驟4）。在此情況下，使用多數表決（步驟5）。
這涉及將給定的結點轉換成樹葉，並用樣本中的多數所在的類標記它。替換地，可以存放結
點樣本的類分佈。
(c) 分枝
test_attribute = a i 沒有樣本（步驟11）。在這種情況下，以 samples 中的多數類
創建一個樹葉（步驟12）

3.1 其他算法：

C4.5: Quinlan

Classification and Regression Trees (CART): (L. Breiman, J. Friedman, R. Olshen, C. Stone)

共同點：都是貪心算法，自上而下(Top-down approach)

區別：屬性選擇度量方法不同： C4.5 （gain ratio), CART(gini index), ID3 (Information Gain)

3.2 如何處理連續性變量的屬性？

4. 樹剪枝葉（避免overfitting)

4.1 先剪枝

4.2 後剪枝

5. 決策樹的優點：

直觀，便於理解，小規模數據集有效

6. 決策樹的缺點：

處理連續變量不好

類別較多時，錯誤增加的比較快

可規模性一般

------------------------------------------------

算法實現請看下一篇博客！

決策樹算法具體實現【基於Python實現】【點我】

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

決策樹算法理論

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

KNN最鄰近規則分類算法實踐實現【Python實現】

神經網絡算法應用舉例【Python實現】

聚類算法之層次聚類算法和應用舉例

window上輕鬆安裝CNTK並運行demo

用Python使用CNTK

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結