決策樹有分類樹與迴歸樹兩種
本節重要記錄了分類樹
決策樹常用三種指標來確定是否繼續劃分集合:信息增益、信息增益率,基尼指數。
信息熵:即數據樣本的純度,純度越高,熵越小。
信息增益:按照某一特徵劃分數據集後熵的減少量,選擇減少量最多的特徵進行劃分,但是偏好特徵取值較多的特徵,常見模型ID3。
信息增益率:在信息增益的基礎上除以一個固有值(intrinsic value,和取值數目有關),會對取值數目較多的特徵有更多懲罰,偏好取值數較少的特徵,常見模型C4.5
基尼指數:從樣本集D中隨機抽取兩個樣本,其類別標記不一致的概率,因此越小越好
構建決策樹的準備工作:
特徵選擇
選取對訓練數據具有分類能力的特徵。
利用香農熵(克勞德 香農)
熵(雜亂程度)是表示隨機變量不確定性的度量
爲了計算熵,我們需要計算所有類別所有可能值包含的信息期望值(數學期望)。
熵越小(不純度)越低
熵越高,信息的不純度就越高,也就是混合的數據就越多。
條件熵
條件熵要有條件
信息增益
父節點的信息熵與其下所有子節點總信息熵之差。子節點的總信息熵不能是簡單的求和,而要加以修正。
(原始數據的熵減去所有修正後的子節點之和)
假設離散屬性a有V個可能的取值(al,a,……,aV}.若使用a對樣本數據集D進行劃分,則會產生V個分支節點,其中第v個分支節點包含了D中所有在屬性a上取值爲a”的樣本,記爲D”.我們可根據信息篇的計算公式計算出D”的信息熵,再考慮到不同的分支節點所包含的樣本數不同,給分支節點賦予權重1/|D,這就是所謂的的修正。
信息熵增益計算
第0列的信息增益