信息熵和信息增益
對決策樹有過初步瞭解的人對決策樹應該有個初步概念,決策樹就是將各種屬性根據在當前條件下,計算出劃分結果最有利的屬性,並將該屬性做爲劃分屬性,以此類推,直到所有的屬性都劃分完畢。其中如何確定該屬性對於劃分結果是最有利?這個需要用到信息熵的概念,即通過計算條件熵H(Y|X)(表示在已知隨機變量X的條件下隨機變量Y的不確定性),選擇不確定性最低的屬性做爲最優劃分屬性。
信息熵概念
什麼是信息熵?信息熵是用來表示信息量大小的度量,即表示隨機變量不確定性的度量。類似於速度用來表示物體運動快慢的度量。那麼這個信息熵是如何計算的。因爲信息熵是信息量的平均值,我們先來看一下信息量的計算公式:
I(ai)=p(ai)log2p(ai)1
- 其中P(ai)表示 ai事件發生的概率
假設一個事件有n種結果,每種結果的概率爲P(X=xi)=pi,i=1,2,...,n
則該隨機變量X的熵定義爲:
I(a1,a2,...,an)=i=1∑nI(ai)=i=1∑np(ai)log2p(ai)1
信息增益
對於熵的概念直觀理解,熵是熱力學裏面的概念,表示運動的不確定性,熵越大,不確定性不大,在這裏,熵同樣表示隨機變量的不確定性。
假設有隨機變量(X,Y),其聯合概率分佈爲:
P(X=xi,Y=yj)=pij,i=1,2,...,n;j=1,2,...,m
條件熵H(Y|X):表示在已知隨機變量X的條件下隨機變量Y的不確定性,定義爲X給定條件下Y的條件概率分佈的熵對X的數學期望。
H(Y∣X)=i=1∑npiH(Y∣X=xi)
信息增益:特徵A對訓練數據集D的信息增益,g(D,A),定義爲集合D的經驗熵H(D)與特徵A給定條件下D的經驗條件熵H(D|A)之差,即
g(D,A)=H(D)−H(D∣A)
而在決策樹中我們將信息增益最大的屬性做爲最有屬性。