熵 條件熵 信息增益

版權聲明:本文爲博主-姜興琪原創文章,未經博主允許不得轉載。

在信息論和條件概率中,熵是表示隨機變量不確定性的度量,設X是一個取有限個值的離散隨機變量,其概率分佈爲

                             P(X=xi)=pi ,i=1,2,....,n

則隨機變量X的熵定義爲

                             H(X) = -累加 pi log pi  

熵越大,隨機變量的不確定性就越大,從定義可驗證

                            0<=H(p)<=logn

當隨機變量只取兩個值,例如1,0時,即X的分佈爲

                             P(X=1)=p  P(X=0)=1-p  0<=p<=1

熵爲

                            H(p)=-p log2 P - (1-p)log2(1-p)

當p=0或p=1時 H(p)=0,隨機完全沒有不確定性。當p=0.5時H(p)=1,熵取值最大,隨機變量不確定性。當p=0.5時,H(p)=1,熵取值最大,隨機變量不確定性最大。

設有隨機變量(x,y),其聯合概率分佈爲

                             P(X=xi,Y=yi)=pij ,i=1,2,...,n;j=1,2,...,m

條件熵H(Y|X)表示在已知隨機變量X的條件下隨機變量Y的不確定性。隨機變量X給定的條件下隨機變量Y的條件熵H(X|Y),定義爲X給定條件下Y的條件概率分佈的熵對X的數學期望

                                                              H(Y|X)=累加 pi H(Y|X=xi)

這裏,pi=P(X=xi),i=1,2,...,n

當熵和條件熵中的概率由數據估計(特別是極大似然估計)得到時,所對應的熵和條件熵分別稱爲經驗熵和經驗條件熵。此時,如果有0概率,令0log0=0

信息增益

信息增益表示得知特徵X的信息而使得類Y的信息的不確定性減少的程度。

特徵A對訓練數據集D的信息增益g(D,A),定義爲集合D的經驗熵H(D)與特徵A給定條件下D的經驗條件熵H(D|A)之差,即

                                                            g(D,A)=H(D)-H(D|A)

一般地,熵H(Y)與條件熵H(Y|X)之差稱爲互信息,決策樹學習中的信息增益等價於訓練數據集中類與特徵的互信息。

決策樹學習應用信息增益準則選擇特徵。給定訓練數據集D和特徵A,經驗熵H(D)表示對數據集D進行分類的不確定性。而經驗條件熵H(D)表示在特徵A給定的條件下對數據集D進行分類的不確定性,那麼他們的差,即信息增益,就表示由於特徵A而使得對數據集D進行分類的不確定性減少的程度。顯然,對於數據集D而言,信息增益依賴於特徵,不同的特徵往往具有不同的信息增益,信息增益大的特徵具有更強的分類能力。

根據信息增益準則的特徵選擇方法是:對訓練數據集(或子集)D,計算其每個特徵的信息增益,並比較它們的大小,選擇信息增益最大的特徵。

總結:信息增益爲 數據集D的經驗熵H(D) 與特徵A對數據集D的經驗熵H(D|A) 之差

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章