簡單易懂的人工智能系列：決策樹之ID3

原創

爱编程的喵汪人

2020-07-07 19:09

決策樹：構建流程

準備工作：明確自變量和因變量，確定信息度量的方式，確定終止條件

選擇特徵：得到當前待處理子集，計算所有特徵信息度量，得到當前最佳分類特徵

創建分支：根據選中特徵將當前記錄分成不同分支，分支個數取決於算法

是否終止：判斷是否滿足終止條件，滿足退出循環，否則繼續遞歸調用

生成結果：判斷是否需要剪枝，需要則適當修剪，否則爲最終結果

說明性的栗子：

決策樹

決策樹(decision tree)是一種基本的分類與迴歸方法。

可以這樣理解，分類決策樹模型是一種描述對實例進行分類的樹形結構。決策樹由結點(node)和有向邊(directed edge)組成。

結點有兩種類型：內部結點(internal node)和葉結點(leaf node)。內部結點表示一個特徵或屬性，葉結點表示一個類。如下圖所示的決策樹，理解就好。

可以把決策樹看成一個if-then規則的集合，將決策樹轉換成if-then規則的過程是這樣的：由決策樹的根結點(root node)到葉結點(leaf node)的每一條路徑構建一條規則；路徑上內部結點的特徵對應着規則的條件，而葉結點的類對應着規則的結論。決策樹的路徑或其對應的if-then規則集合具有一個重要的性質：互斥並且完備。這就是說，每一個實例都被一條路徑或一條規則所覆蓋，而且只被一條路徑或一條規則所覆蓋。這裏所覆蓋是指實例的特徵與路徑上的特徵一致或實例滿足規則的條件。

接下來我們就通過一個栗子來詳細說明決策樹的構建流程。已知電腦購買記錄，對購買者進行建模，預測新用戶是否購買電腦。

準備工作

電腦購買記錄數據如下：

觀察數據，明確自變量（年齡，收入層次，是否單身，信用等級）和因變量（是否購買電腦）

自變量
因變量

明確信息度量方式：熵 — 信息增益（ID3）

熵
基尼係數

明確分支終止條件：純度

純度
記錄條數：當前待處理的記錄條數是否小於一個閾值
循環次數

信息熵：是信息論裏面的概念，由香農提出，是用來描述混亂程度的度量，它的取值範圍0~1，值越大，說明越混亂。熵定義爲信息的期望值：公式如下：

那麼假如樣本數據表中的數據爲訓練數據集D，則訓練數據集D的經驗熵爲H(D)，|D|表示其樣本容量，及樣本個數。設有K個類Ck, = 1,2,3,...,K,|Ck|爲屬於類Ck的樣本個數，因此信息熵公式就可以寫爲：

舉個栗子：有一堆蘋果和梨共 100 個，隨機拿出一個，拿出的是哪一種水果？

50個蘋果 + 50個梨子
0個蘋果+100個梨子
80個蘋果+20 個梨子

第一種情況的信息熵爲1，說明混亂程度最大，也就是想要提前預測拿出的水果是啥的難度最大，第二中全是梨，說明混亂程度最小，拿出一個水果則一定是梨子，而第三種情況的信息熵爲0.722，混亂程度不算最大，但是想要預測是蘋果還是梨子還是有一定的難度。熵，就是描述當時現象，事物的混亂程度

信息增益和特徵選擇

信息增益就是指從一個狀態到另一個狀態後，信息的確定性的增加，信息增益越大，那麼對信息確定性的貢獻也就越大。比如我們收集到了幾種植物果實的顏色和氣味，根據這兩個信息確定是否無水果？

不考慮任何特徵，直接去估計結果：

也就是說直接來猜測的話，出錯的概率是最大的。然後考慮以顏色爲參考信息，判斷是否爲水果：

說明以顏色作爲參考信息，混亂程度下降了，確定性增加了。

那我們考慮以味道爲參考信息，判斷是否爲水果：

那麼只根據味道來判斷，甜就是水果，不甜就不是水果，可以說完全確定，不存在混亂了。

所以，信息增益：

顏色：1- 0.689 = 0.311
味道：1-0 = 1

味道的信息增益更大，所以基於這個數據集，就會優先考慮味道這個特徵所謂劃分依據。

構建決策樹

回到之前的電腦購買記錄數據集：

編寫產生數據矩陣的函數 createDataSet：

第一級特徵選擇

編寫計算整體熵的函數calcAllInfoEnt：

計算整體的熵：購買9例，未購買：5例

編寫計算條件特徵熵和信息增益的函數chooseBestFeatureToSplit和劃分數據集的函數

計算年齡的熵：

計算收入的熵：

計算單身的熵：

計算信用的熵：

計算各個特徵的信息增益：

所以，選擇年齡作爲當前最佳特徵（索引0）。

按照取值產生分支

年齡作爲分支條件，所以在子路徑中就沒有年齡這個特徵了：

首先來看青少年這個分支，該分支是否滿足終止條件（小於最小記錄數，或者純度爲1，或者循環次數）

計算當前分支信息增益後，選擇是否單身作爲當前最佳特徵：

因此，下一級以是否單身作爲分支條件，子已經滿足終止條件：

其他分支的二級特徵選擇方法相同。不再贅述。

生成構建的決策樹

編寫生成決策樹的函數：

輸出模型如下（字典表示）：

這個就是我們構建的決策樹模型：

if 青少年 && 單身 then 買；
if 青少年 && 不單身 then 不買；
if 中年 then 買；
if 老年&& 信用一般 then 買；
if 老年&& 信用良好 then 不買；

總結

以上介紹的算法是ID3 (Iterative Dichotomiser 3 ，迭代樹三代），是由Ross Quinlan提出的：

核心是信息熵，根據信息增益來決定輸的節點。

存在以下問題：

信息度量不合理：傾向於選擇取值多的字段
輸入類型單一：離散型
不作剪枝：容易發生過擬合

C4.5（J.Ross Quinlan在ID3的基礎上提出的）：和 ID 3相比的改進：

用信息增益率代替信息增益
能對連續屬性進行離散化，對不完整數據進行處理
進行剪枝

C50：相比C4.5的改進：

使用了boosting
前修剪、後修剪

CART（Classification and Regression Tree），是由下面三個大牛一起提出的

核心是基尼係數（Gini）
分類是二叉樹
支持連續值
後剪枝進行修剪
支持迴歸，可以預測連續值

ID3，C4.5，CART三種決策樹算法的對比：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

AI從入門到入門之手寫數字識別模型java方式Dense全連接神經網絡實現

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

Pinecone: 大模型時代的智能索引與搜索解決方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

軟件測試從自動化到智能化，大模型開始加入

隨着科技的飛速發展，軟件行業也在不斷地演進和創新。作爲軟件行業的關鍵環節之一，軟件測試行業也在經歷着前所未有的變革。從最初的手動測試，到自動化測試，再到如今的智能化測試，軟件測試行業正在經歷一場深刻的技術革命。在這場革命中，Testin雲測

2024-04-19 00:53:25

裁員了！別錯過2024年大數據工程師必備的10項技能

在當今快速發展的世界中，數據被視爲新的石油。隨着對數據驅動洞察的日益依賴，大數據工程師的角色比以往任何時候都更爲關鍵。這些專業人員在管理和優化組織內的數據操作中扮演着至關重要的角色。在本文中，我們將探索2024年大數據工程師必須具備的十

2024-04-16 11:00:53

DevOps已死？2024年的DevOps將如何發展

隨着我們進入2024年，DevOps也隨之發生變化。新興的技術、變化的需求和發展的方法正在重新定義有效實施DevOps實踐。 IDC預測顯示，未來五年，支持DevOps實踐的產品市場繼續保持健康且快速增長，2022年-2027年的複合年增長

2024-04-08 12:51:44

從模型到部署，教你如何用Python構建機器學習API服務

本文分享自華爲雲社區《Python構建機器學習API服務從模型到部署的完整指南》，作者：檸檬味擁抱。在當今數據驅動的世界中，機器學習模型在解決各種問題中扮演着重要角色。然而，將這些模型應用到實際問題中並與其他系統集成，往往需要構建API

2024-04-08 10:33:17

測試左移已經開始影響DevOps的發展？

在軟件開發的早期，該過程通常是開發人員編寫代碼，再將其交給質量保證（QA）進行測試。這種瀑布開發方法可能會導致質量問題和延遲，因爲問題是在週期後期發現的。一、瞭解DevOps和測試左移 DevOps是Development和Operati

2024-04-07 12:48:37

黑盒Prompt優化：提升大模型反饋效果的新思路

隨着人工智能技術的快速發展，大模型在各種應用場景中發揮着越來越重要的作用。然而，如何提升大模型的反饋效果，使其更加準確、高效地爲用戶提供服務，一直是研究者和開發者關注的焦點。本文提出了一種新的思路——黑盒Prompt優化，旨在通過改進輸入提

2024-03-29 00:01:17

分佈式數據庫技術的演進和發展方向

這些年大家都在談分佈式數據庫，各大企業也紛紛開始做數據庫的分佈式改造。那麼，所謂的分佈式數據庫到底是什麼？採用什麼架構？優勢在哪？爲什麼越來越多企業選擇它？分佈式數據庫技術會向什麼方向發展？帶着這些疑問，一探究竟吧！參與文末的話題互動

2024-03-26 11:34:43

利用RAG技術打破大模型幻覺

隨着人工智能技術的不斷進步，大模型在各個領域中發揮着越來越重要的作用。然而，大模型幻覺問題一直是制約其進一步發展的瓶頸。爲了解決這一問題，研究者們不斷探索新的技術和方法。近年來，一種名爲RAG（檢索增強生成）的技術備受關注，它通過結合知識圖

2024-03-21 00:28:34

與 NVIDIA 再次合作、深度參與 GTC，Zilliz 與全球頂尖開發者共迎 AI 變革時刻！

Zilliz 與全球的頂尖開發者齊聚 GTC 2024。近日，備受關注的 NVIDIA GTC 2024 已拉開序幕，來自世界各地的頂尖 AI 開發者齊聚美國加州聖何塞會議中心，共同探索行業未來。作爲去年被 NVIDIA CEO 黃仁

2024-03-19 21:26:53

多模態+大模型會帶來哪些“化學反應”？

導語：沒人懷疑，2024 年，AI 依然將是科技界的主角。上個月，OpenAI 推出了可以生成 60 秒高清視頻的視頻生成模型 Sora，掀起了對多模態模型的進一輪討論。多模態大模型技術的最新進展如何？這一波新技術，對於行業和消費者的體驗會

2024-03-15 13:45:01

婦女節：打開 AI 視界，成就“她力量”

根據國內招聘平臺獵聘發佈的《2024 女性人才數據洞察報告》，從 2023 年 3 月到 2024 年 2 月，女性在 AIGC 領域的求職人次同比增長了 190.49%。隨着人工智能時代的降臨，女性正以前所未有的姿態，在技術的助力下，蛻變

2024-03-09 01:06:57

AI安全白皮書 | “深度僞造”產業鏈調查以及四類防禦措施

以下內容，摘編自頂象防禦雲業務安全情報中心正在製作的《“深度僞造”視頻識別與防禦白皮書》，對“深度僞造”感興趣的網友，可前往頂象留言，在該白皮書完成後，會爲您免費寄送一份電子版。 “深度僞造”就是創建高度逼真的虛假視頻或虛假錄音，然

2024-03-08 00:45:22

24小時熱門文章

最新文章

最新評論文章