版權聲明:本文爲博主-姜興琪原創文章,未經博主允許不得轉載。
在信息論和條件概率中,熵是表示隨機變量不確定性的度量,設X是一個取有限個值的離散隨機變量,其概率分佈爲
P(X=xi)=pi ,i=1,2,....,n
則隨機變量X的熵定義爲
H(X) = -累加 pi log pi
熵越大,隨機變量的不確定性就越大,從定義可驗證
0<=H(p)<=logn
當隨機變量只取兩個值,例如1,0時,即X的分佈爲
P(X=1)=p P(X=0)=1-p 0<=p<=1
熵爲
H(p)=-p log2 P - (1-p)log2(1-p)
當p=0或p=1時 H(p)=0,隨機完全沒有不確定性。當p=0.5時H(p)=1,熵取值最大,隨機變量不確定性。當p=0.5時,H(p)=1,熵取值最大,隨機變量不確定性最大。
設有隨機變量(x,y),其聯合概率分佈爲
P(X=xi,Y=yi)=pij ,i=1,2,...,n;j=1,2,...,m
條件熵H(Y|X)表示在已知隨機變量X的條件下隨機變量Y的不確定性。隨機變量X給定的條件下隨機變量Y的條件熵H(X|Y),定義爲X給定條件下Y的條件概率分佈的熵對X的數學期望
H(Y|X)=累加 pi H(Y|X=xi)
這裏,pi=P(X=xi),i=1,2,...,n
當熵和條件熵中的概率由數據估計(特別是極大似然估計)得到時,所對應的熵和條件熵分別稱爲經驗熵和經驗條件熵。此時,如果有0概率,令0log0=0
信息增益
信息增益表示得知特徵X的信息而使得類Y的信息的不確定性減少的程度。
特徵A對訓練數據集D的信息增益g(D,A),定義爲集合D的經驗熵H(D)與特徵A給定條件下D的經驗條件熵H(D|A)之差,即
g(D,A)=H(D)-H(D|A)
一般地,熵H(Y)與條件熵H(Y|X)之差稱爲互信息,決策樹學習中的信息增益等價於訓練數據集中類與特徵的互信息。
決策樹學習應用信息增益準則選擇特徵。給定訓練數據集D和特徵A,經驗熵H(D)表示對數據集D進行分類的不確定性。而經驗條件熵H(D)表示在特徵A給定的條件下對數據集D進行分類的不確定性,那麼他們的差,即信息增益,就表示由於特徵A而使得對數據集D進行分類的不確定性減少的程度。顯然,對於數據集D而言,信息增益依賴於特徵,不同的特徵往往具有不同的信息增益,信息增益大的特徵具有更強的分類能力。
根據信息增益準則的特徵選擇方法是:對訓練數據集(或子集)D,計算其每個特徵的信息增益,並比較它們的大小,選擇信息增益最大的特徵。
總結:信息增益爲 數據集D的經驗熵H(D) 與特徵A對數據集D的經驗熵H(D|A) 之差