【機器學習】決策樹(一)----學習步驟和常用算法ID3以及C4.5

決策樹分開兩部分，是因爲CART算法還是有些麻煩的，對於迴歸樹我還是存在一些問題，希望後面整理的時候能夠理清楚。

【學習思想】

決策樹的學習思想還是很通俗易懂的。一般我們去買東西，我們會對這個東西的一些特徵做一個衡量來決定是否購買，比如我們可能會看這個東西的大小是否合適，如果合適，我們可能會看這個東西的材質是否滿意，滿意的話我們會繼續在意它的價格是否合理。這樣一步一步下來，我們就能構造出一個樹形模型。不過我們在構造樹的時候，第一個選擇什麼特徵作爲我們的衡量標準，下一個選擇什麼特徵來衡量，這是一個問題，因此我們要做出特徵選擇。當我們要買一個新東西(同功用)的時候，我們就可以根據以前生成的樹形模型，來判斷我們是否會購買。這裏買與不買是一個二分類問題，多分類問題與其思想也是一樣的，決策樹模型可讀性很高，且分類速度很快。

【學習步驟】

①特徵選擇：特徵選擇即我們用哪個特徵來劃分空間。我們常用信息增益、信息增益比或基尼係數來作爲劃分依據。
②決策樹的生成：常用算法有ID3，C4.5，CART
②決策樹的剪枝：常用方法有極小化決策樹整體的損失函數、CART剪枝算法

【①特徵選擇】

選擇最佳劃分的度量通常是根據劃分後子女節點不純性的程度。不純的程度越低，類分佈就越傾斜。不純性度量有熵、基尼、classification error。由於在ID3和C4.5中我們分別是用信息增益和信息增益比，在CART的分類樹上是用基尼係數來做特徵選擇。因此我們要對信息增益、信息增益比以及基尼係數的計算有個瞭解。

信息增益

輸入：訓練數據集 $D$ 、特徵 $A$
輸出：特徵A對訓練數據集D的信息增益 $g (D, A)$
$1. 数据集 D 的经验熵 H (D)$
　　　 $H (D) = - \sum_{k = 1}^{K} \frac{| C_{k} |}{| D |} l o g_{2} \frac{| C_{k} |}{| D |}$
　　　 $| D | 为训练样本总数， | C_{k} | 为类 C_{k} 的个数$
$2. 特征 A 对数据集 D 的经验条件熵 H (D | A)$
　　　 $H (D | A) = \sum_{i = 1}^{n} \frac{| D_{i} |}{| D |} H (D_{i}) = - \sum_{i = 1}^{n} \frac{| D_{i} |}{| D |} \sum_{k = 1}^{K} \frac{| D_{i k} |}{| D_{i} |} l o g_{2} \frac{| D_{i k} |}{| D_{i} |}$
　　　 $| D_{i k} | 为子集 D_{i} 中类为 C_{k} 的个数， | D_{i} | 为特征 A 的第 i 种取值的个数$
$3. 信息增益$
　　　 $g (D, A) = H (D) - H (D | A)$
　　　

信息增益比

輸入：訓練數據集 $D$ 、特徵 $A$
輸出：特徵A對訓練數據集D的信息增益比 $g_{R} (D, A)$
$1. 数据集 D 关于特征 A 的值的熵 H_{A} (D)$
　　　 $H_{A} (D) = - \sum_{i = 1}^{n} \frac{| D_{i} |}{| D |} l o g_{2} \frac{| D_{i} |}{| D |}$
$2. 信息增益比$
　　　 $g_{R} (D, A) = \frac{g (D, A)}{H_{A} (D)}$

基尼指數

輸入：訓練數據集 $D$ 、特徵 $A$
輸出：特徵A對訓練數據集D的基尼指數 $G i n i (D, A)$
$1. 若样本点属于第一个类的概率是 p ，则概率分布的基尼指数为$
　　　 $G i n i (p) = 2 p (1 - p)$
$此处是二分类情况， C A R T 算法中会将特征的多个取值变为一对多的形$
$式变成二分类，来计算某特征所有取值的 G i n i 指数$

$2. 特征 A 对数据集 D 的基尼指数 G i n i (D, A)$
　　　 $G i n i (D, A) = \frac{| D_{1} |}{| D |} G i n i (D_{1}) + \frac{| D_{2} |}{| D |} G i n i (D_{2})$

【②決策樹生成算法】

由於C4.5與ID3的區別只在於特徵選擇上，因此算法結構是一樣的。
C4.5是ID3的改進，因爲ID3採用信息增益的方式選擇特徵，會對某些可取類別(值)數目較多的屬性有所偏好(如學號，學號取值很多，其信息增益很大，但實際分類意義不強，不具有泛化能力)

$I D 3$ $/ C 4.5$ 的生成算法：

輸入：訓練數據集 $D$ ，特徵集 $A$ ，閾值 $ε$
輸出：決策樹 $T$
(1)若 $D$ 中樣本全屬於同一類別 $C_{k}$ ，則將 $n o d e$ 標記爲 $C_{k}$ 類葉節點，返回T；

$就拿《统计学习方法》上例 5.1 中的表来说 (下面举例都是用这个) ，不管$
$前面特征如何，最后的类别全是 “ 是 ” 或全是 “ 否 ” 的话，我们就没有必要$
$做分类了，所以我们会把这一类直接标记为叶节点后结束$

(2)若 $D$ 中樣本在 $A$ 上取值相同或 $A = \emptyset$ ，則將 $n o d e$ 標記爲葉節點，其類別標記爲 $D$ 中樣本數量最多的類，返回 $T$ ；

$对于年龄、有工作、有房子、信贷情况这四个特征来说，表中 15 条数据都相同，$
$唯独不同的只有类别。比如年龄都是 “ 中年人 ” ，工作和房子都为 “ 是 ” ，信贷情$
$况都为 “ 一般 ” ，则这些特征对于分类也没有什么作用了，因此也就相当于没有$
$特征可以用于划分，与特征集 A 为空集的意义差不多，所以我们就数一数这些$
$数据中哪个类别最多，就将这个类别标记为叶节点后结束$

(3)若是以上兩種情況都未發生，那麼計算 $A$ 中各特徵對 $D$ 的信息增益 $/ 信息增益比$ ，選擇信息增益 $/ 信息增益比$ 最大的特徵 $A_{g}$ ，若 $A_{g}$ 的信息增益 $/ 信息增益比$ 小於閾值 $ε$ ，則將 $n o d e$ 標記爲 $D$ 中樣本數最多的類；

$比如计算出特征有 “ 房子 ” 的信息增益$ $/ 信息增益比$ $最大，则这一子节点引出两个$
$子节点，分别对应 “ 是 ” 和 “ 否 ” ，对于 “ 有房子 ” 来说其类别全为 “ 是 ” ，则这个子$
$节点是一个叶节点，其类标记为 “ 是 ” ；对于 “ 无房子来说 ” ，我们继续从年龄、$
$工作、信贷情况来选择新的特征$

(4)否則對 $A_{g}$ 的每一可能值 $a_{i}$ ，依 $A_{g} = a_{i}$ 將 $D$ 分割爲若干個非空的 $D_{i}$ ，將 $D_{i}$ 中樣本數最多的類作爲類別標記，構建子節點，由節點及其子節點構成樹 $T$ ，返回 $T$ ；
(5)對節點i，以 $D_{i}$ 爲訓練集，以 $A - {A_{g}}$ 爲特徵集，遞歸調用(1)~(5)，得到子樹 $T_{i}$ ，返回 $T_{i}$ 。

【③決策樹剪枝算法】

在瞭解決策樹剪枝算法之前，我們先來看看決策樹最顯著的缺點，那就是容易過擬合。我們可能會學習了一個很複雜的樹，它對於訓練集有很好的擬合效果，但是對於新輸入的數據來說，卻無法給出好的分類。因此，爲了讓複雜的樹簡單些，提出了剪枝算法。
這這裏先複習《統計學習方法》上給出的一種剪枝算法，即極小化決策樹整體的損失函數。

決策樹學習的損失函數

我們用 $| T |$ (樹 $T$ 的葉節點個數)來表示模型的複雜度。
經驗熵： $H_{t} (T) = - \sum_{k}^{K} \frac{N_{t k}}{N_{t}} l o g (\frac{N_{t k}}{N_{t}})$
$H_{t} (T) 是指叶节点 t 的经验熵，其中 N_{t} 是指叶节点 t 中的样本个数，$
$N_{t k} 是指这 N_{t} 个样本中 k 类样本的个数， K 是指有多少类别$

定義決策樹學習的損失函數爲：
$C_{α} (T) = \sum_{t = 1}^{| T |} N_{t} H_{t} (T) + α | T | = - \sum_{t = 1}^{| T |} \sum_{k}^{K} N_{t k} l o g (\frac{N_{t k}}{N_{t}}) + α | T |$

令 $C (T) = - \sum_{t = 1}^{| T |} \sum_{k}^{K} N_{t k} l o g (\frac{N_{t k}}{N_{t}})$ ，用於表示模型對訓練數據的誤差，即模型與訓練數據的擬合程度。
可以得到： $C_{α} (T) = C (T) + α | T |$
$α$ 是控制模型複雜度和模型誤差之間比重的參數，若 $α$ 小，則選擇較複雜的模型(即 $| T |$ 較大)；若 $α$ 大，則選擇較簡單的模型(即 $| T |$ 較小)。這樣能夠很好地平衡過擬合(方差)與誤差(偏差)

剪枝算法(基於極小化決策樹整體的損失函數)

輸入：由生成算法得到的整個樹 $T$ ，參數 $α$
輸出：修剪後的子樹 $T_{α}$
(1)計算每一個葉節點的經驗熵；
(2)遞歸地從樹的葉節點向上回縮；
(3)計算剪枝前整體樹 $T_{b e f o r e}$ 和剪枝後 $T_{a f t e r}$ 的損失函數 $C_{α} (T_{b e f o r e})$ 和 $C_{α} (T_{a f t e r})$ ；
(4)若剪枝後的損失函數 $C_{α} (T_{a f t e r})$ 小於剪枝前的損失函數 $C_{α} (T_{b e f o r e})$ ，則進行剪枝，將父節點變爲新的葉節點；
(5)返回(2)，直至不能繼續爲止，得到損失函數最小的子樹 $T_{α}$

通過對決策樹的生成算法和剪枝算法的學習，我們可以看出決策樹生成希望得到更好的擬合效果，而決策樹剪枝通過優化損失函數還考慮了模型的複雜度。決策樹生成學習局部的模型，決策樹剪枝學習整體的模型。

決策樹的計算確實不難，我覺得可以通過對例題，習題的計算來加快理解，在真正應用當中，決策樹通常會被用到集成學習當中作爲基函數，如隨機森林，梯度提升樹等(大多選擇cart tree)

參考文獻：《統計學習方法》、《數據挖掘導論》

htshinichi

發佈了45 篇原創文章 · 獲贊 37 · 訪問量 5萬+

私信關注

【機器學習】決策樹(一)----學習步驟和常用算法ID3以及C4.5

【學習思想】

【學習步驟】

【①特徵選擇】

信息增益

信息增益比

基尼指數

【②決策樹生成算法】

$I D 3$ $/ C 4.5$ 的生成算法：

【③決策樹剪枝算法】

決策樹學習的損失函數

剪枝算法(基於極小化決策樹整體的損失函數)

決策樹的計算確實不難，我覺得可以通過對例題，習題的計算來加快理解，在真正應用當中，決策樹通常會被用到集成學習當中作爲基函數，如隨機森林，梯度提升樹等(大多選擇cart tree)

如何使用 JS 判斷用戶是否處於活躍狀態

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

【數據】讀取mnist數據集

【ONNX】使用yolov3.onnx模型進行目標識別的實驗

【caffe】配置caffe記錄(GPU)[2018.11.07更新]

【caffe】Caffe模型轉換爲ONNX模型(新版)

【機器學習】決策樹(二)----CART算法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【機器學習】決策樹(一)----學習步驟和常用算法ID3以及C4.5

【學習思想】

【學習步驟】

【①特徵選擇】

信息增益

信息增益比

基尼指數

【②決策樹生成算法】

ID3ID3/C4.5/C4.5 的生成算法：

【③決策樹剪枝算法】

決策樹學習的損失函數

剪枝算法(基於極小化決策樹整體的損失函數)

決策樹的計算確實不難，我覺得可以通過對例題，習題的計算來加快理解，在真正應用當中，決策樹通常會被用到集成學習當中作爲基函數，如隨機森林，梯度提升樹等(大多選擇cart tree)

$I D 3$ $/ C 4.5$ 的生成算法：