機器學習之數據分析--決策樹

原創

HighBox

2020-06-17 06:33

文章目錄

決策樹有分類樹與迴歸樹兩種

本節重要記錄了分類樹

決策樹常用三種指標來確定是否繼續劃分集合：信息增益、信息增益率，基尼指數。
信息熵：即數據樣本的純度，純度越高，熵越小。
信息增益：按照某一特徵劃分數據集後熵的減少量，選擇減少量最多的特徵進行劃分，但是偏好特徵取值較多的特徵，常見模型ID3。
信息增益率：在信息增益的基礎上除以一個固有值（intrinsic value，和取值數目有關），會對取值數目較多的特徵有更多懲罰，偏好取值數較少的特徵，常見模型C4.5
基尼指數：從樣本集D中隨機抽取兩個樣本，其類別標記不一致的概率，因此越小越好

構建決策樹的準備工作：

特徵選擇
選取對訓練數據具有分類能力的特徵。
利用香農熵（克勞德香農）

熵（雜亂程度）是表示隨機變量不確定性的度量

爲了計算熵，我們需要計算所有類別所有可能值包含的信息期望值（數學期望）。

熵越小（不純度）越低

熵越高，信息的不純度就越高，也就是混合的數據就越多。

條件熵

條件熵要有條件

信息增益

父節點的信息熵與其下所有子節點總信息熵之差。子節點的總信息熵不能是簡單的求和，而要加以修正。
（原始數據的熵減去所有修正後的子節點之和）

假設離散屬性a有V個可能的取值（al，a，……，aV}.若使用a對樣本數據集D進行劃分，則會產生V個分支節點，其中第v個分支節點包含了D中所有在屬性a上取值爲a”的樣本，記爲D”.我們可根據信息篇的計算公式計算出D”的信息熵，再考慮到不同的分支節點所包含的樣本數不同，給分支節點賦予權重1/|D，這就是所謂的的修正。
信息熵增益計算
第0列的信息增益

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習之數據分析--決策樹

文章目錄

熵（雜亂程度）是表示隨機變量不確定性的度量

條件熵

信息增益

操作系統理論細節 2

操作系統理論細節

機器數據挖掘--常見監督學習算法以及數據挖掘流程

機器學習與數據挖掘—邏輯迴歸

python import numpy 與 from numpy import *的區別

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結