決策樹（decisions tree）和ID3算法

原創

2018-08-24 04:08

決策樹和決策規則是解決實際應用中分類問題的強大的數據挖掘方法。

首先，介紹一下分類的基本原理：

分類是一個學習函數的過程，該函數把數據項映射到其中一個預定義的類中。若一個樣本包含屬性值向量和一個相應的類，則基於歸納學習算法的每個分類就指定爲該樣本集的輸入。歸納學習的目標是構建一個分類模型，也成爲分類器，它可以根據有效的屬性輸入值預測某個實體所屬的類。

決策樹定義：每一個結點是一個decision，葉子結點是最終的決定。

如圖簡單示意，決策樹可以被用來作爲分類器

決策樹易於被理解，即使對於非技術人員

在一元樹中，對於每個內部節點，檢驗函數都只使用一個屬性進行檢驗。結點的輸出分支對應於該節點的所有可能的檢驗結果。

那麼我們如何能夠從一個數據集中構造決策樹？

初步思路爲用隨機的splitting plane來分割數據集中的點

如右圖

找到更智能的分割方法

引入entropy熵其中n是需要分成的類個數

fS (yi )是第yi的類在S中的頻率。

ID3算法使分割後的子集的熵儘可能小，使entrogy gain儘可能大

其中fS (Ai )是Ai佔S的頻率，SAi是S的按A分割的子集之一

進階的算法還有C4.5和C5算法等

對於這種自上而下的決策樹生成算法，最重要的決策是樹節點屬性的選擇。

ID3和C4.5算法的屬性選擇基準都是使樣本中的信息熵最小化。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

亞線性算法

2020-06-04 12:09:52

基於MapReduce的並行算法設計

這是中國大學MOOC中的大數據算法課程筆記實際上Google已經宣佈棄用MapReduce，但是它作爲一種並行處理框架，仍然在很多地方得到了廣泛的應用。還有一個重要的MapReduce實現平臺，就是Hadoop平臺，大家仍然可以在上面

2020-07-05 09:24:35

外部排序優化之敗者樹與勝者樹

概述：勝者樹和敗者樹都是完全二叉樹，是樹形選擇排序的一種變型。每個葉子結點相當於一個選手，每個中間結點相當於一場比賽，每一層相當於一輪比賽。不同的是，勝者樹的中間結點記錄的是勝者的標號；而敗者樹的中間結點記錄的敗者的標號。勝者

社会你鑫哥

2020-06-19 02:00:08

空間亞線性---水庫抽樣

問題.水庫抽樣輸入：一組數據W，長度爲ｎ輸出：均勻抽樣ｋ個數據後，得到的新數組S 要求： 1.僅允許一次掃描、 2.空間複雜度k 3.掃描前m個數據後，幽囚保存已掃描數據的k個均勻抽樣。意味着，從開始掃描（

2020-06-16 08:45:31

【Java數據結構】樹

【Java數據結構】樹及其應用Java中的樹一、樹基礎結構1.樹定義1.1.一些花裏胡哨的名詞1.2.存儲方式2.二叉樹2.1.性質2.2.遍歷方式二、樹的進階與Java1.完全二叉樹1.1.定義1.2.性質1.3.優先級隊列中的

2020-06-15 19:10:42

大數據算法基礎筆記

一、分類算法：對數據分類和預測 1. KNN算法即K近鄰（K Nearest Neighbour）算法，是一種基本的分類算法，其主要原理是：對於一個需要分類的數據，將其和一組已經分類標註好的樣本集合進行比較，得到距離最近的K個樣本，K個樣

2020-06-10 13:58:32

PageRank算法理論篇

PageRank算法是Google最核心的算法，用於給每個網頁價值評分，是Google“在垃圾中找黃金”的關鍵算法，這個算法成就了今天的Google。最早的搜索引擎採用的是“分類目錄”的方法，即通過人工對

2020-06-07 23:48:22

大數據算法學習筆記(5)-有序數組的判定

JiajunBernoulli

2020-05-16 11:22:37

大數據算法學習筆記(6)-外存排序

JiajunBernoulli

2020-05-16 11:22:37

大數據算法學習筆記(4)-數據流中的頻繁元素

JiajunBernoulli

2020-04-28 17:48:24

大數據算法學習筆記(2)-平面圖的直徑算法

JiajunBernoulli

2020-04-27 16:35:55

大數據算法學習筆記(1)-水庫抽樣算法

JiajunBernoulli

2020-04-27 16:35:45

大數據算法學習筆記(3)-全0數組判定

JiajunBernoulli

2020-04-27 16:35:45

外部排序

社会你鑫哥

2020-02-23 14:24:17

MapReduce算法例析——連接算法

2020-02-20 19:49:10

24小時熱門文章

最新文章

最新評論文章