機器學習之數據分析--決策樹

決策樹有分類樹與迴歸樹兩種

本節重要記錄了分類樹

決策樹常用三種指標來確定是否繼續劃分集合:信息增益、信息增益率,基尼指數。
信息熵:即數據樣本的純度,純度越高,熵越小。
信息增益:按照某一特徵劃分數據集後熵的減少量,選擇減少量最多的特徵進行劃分,但是偏好特徵取值較多的特徵,常見模型ID3。
信息增益率:在信息增益的基礎上除以一個固有值(intrinsic value,和取值數目有關),會對取值數目較多的特徵有更多懲罰,偏好取值數較少的特徵,常見模型C4.5
基尼指數:從樣本集D中隨機抽取兩個樣本,其類別標記不一致的概率,因此越小越好

構建決策樹的準備工作:

特徵選擇
選取對訓練數據具有分類能力的特徵。
利用香農熵(克勞德 香農)

熵(雜亂程度)是表示隨機變量不確定性的度量

爲了計算熵,我們需要計算所有類別所有可能值包含的信息期望值(數學期望)。

熵越小(不純度)越低

熵越高,信息的不純度就越高,也就是混合的數據就越多。

在這裏插入圖片描述

條件熵

條件熵要有條件
在這裏插入圖片描述

信息增益

父節點的信息熵與其下所有子節點總信息熵之差。子節點的總信息熵不能是簡單的求和,而要加以修正。
(原始數據的熵減去所有修正後的子節點之和)
在這裏插入圖片描述
假設離散屬性a有V個可能的取值(al,a,……,aV}.若使用a對樣本數據集D進行劃分,則會產生V個分支節點,其中第v個分支節點包含了D中所有在屬性a上取值爲a”的樣本,記爲D”.我們可根據信息篇的計算公式計算出D”的信息熵,再考慮到不同的分支節點所包含的樣本數不同,給分支節點賦予權重1/|D,這就是所謂的的修正。
信息熵增益計算
第0列的信息增益
在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章