條件信息熵的決策表約簡
本文使用信息論的觀點對Rough Set理論進行研究,並且與代數觀點進行對比。
寫在前面
對決策表的描述如圖所示:
信息論觀點描述
使用熵還衡量某些 屬性 的需要程度。
U:論域
U上任一屬性集合(知識、等價關係簇) 是 定義在U上的子集組成e代數上的一個隨機變量
此隨機變量的概率分佈可通過如下方式確定:
定義1:P,Q 概率分佈
設P,Q
在U上導出的劃分分別爲X,Y
(X={X1,X2,...,Xn},Y={Y1,Y2,...,Ym}),則P,Q
在U
的子集組成的e
代數上的概率分佈爲
[X:p]=[X1p(X1)X2p(X2)⋯⋯Xnp(Xn)]
[Y:p]=[Y1p(Y1)Y2p(Y2)⋯⋯Ymp(Ym)]
其中:
P、Q
是知識(屬性集合);
p(Xi)=∣U∣∣Xi∣,i={1,2,...,n};
p(Yj)=∣U∣∣Yj∣,j={1,2,...,m}。
定義2:熵 H( P ) 定義
知識(屬性集合)P 的熵 H( P ) 定義爲
H(P)=−i=1∑np(Xi)log(p(Xi))
定義3:條件熵H(Q|P)
定義
知識(屬性集合)Q(U∣IND(Q))={Y1,Y2,...,Ym}
相對於
知識(屬性集合)P(U∣IND(P))={X1,X2,...,Xn}
的條件熵H(Q|P)
定義爲:
H(Q∣P)=−i=1∑np(Xi)j=1∑mp(Yj∣Xi)log(p(Yj∣Xi))
其中 p(Yj∣Xi)=∣Xi∣∣Yj∩Xi∣;i={1,2,...,n};j={1,2,...,m} 。
機器學習中的信息論觀點鏈接
IND( P ) 和 IND( Q ) 代表 等價關係(不可分辨關係)
設由屬性集合 P
和 D = { d }
(D是決策屬性)導出的對論域 U = ( | U | = n)
的劃分分別爲:U∣IND(P)={X1,X2,...,Xn}和 U∣IND(d)={Z1,Z2,...,Zs} 則可推導以下定理:
定理1:條件熵H(Q|P)
計算
H(D∣P)=H(D∪P)−H(P)
條件熵計算鏈接
定理2:不可分辨關係和熵
條件 :U
是論域,P、Q
是U
上兩個屬性集合。
若IND(Q)=IND(P),則 H(Q)=H(P)。
IND(Q)=IND(P)⟹H(Q)=H(P)
Note:逆不成立
定理3:熵和不可分辨關係
條件 :U
是論域,P、Q
是U
上兩個屬性集合,並且 P⊆Q。
若 H(Q)=H(P),則IND(Q)=IND(P)。
IND(Q)=IND(P)⟹H(Q)=H(P)
定理4:不必要屬性和必要屬性
條件 :U
是論域,P
是U
上一個屬性集合,
P
中的屬性 r
是 不必要 的,其 充分必要 條件爲:
H(r∣P−r)=0
P
中的屬性 r
是 必要 的,其 充分必要 條件爲:
H(r∣P−r)>0
定理5:屬性約簡
條件 :U
是論域,P、Q
是U
上一個屬性集合,Q⊆P是P
的一個約簡的充分必要條件爲H(Q)=H(P),且對任意的q∈Q都有H(q∣Q−q)>0
相對約簡
以上僅僅是針對一般信息表約簡的問題,而對於相對約簡,有如下定理:
定理6:多餘屬性
條件 :U
是論域,P、Q
是U
上一個條件屬性集合,d
爲決策屬性,且論域 U
是在 P
上相對於 {d}
一致的 (含義:POSp({d})=U),則屬性r
是P
相對於決策屬性d
不必要的(多餘的),其充分必要條件爲:
H({d}∣P)=H({d}∣P−{r})
論域 U
是在 P
上相對於 {d}
一致的 ⟺POSp({d})=U
證明:下次撰寫。
定理7:獨立
條件 :U
是論域,P、Q
是U
上一個條件屬性集合,d
爲決策屬性,且論域 U
是在 P
上相對於 {d}
一致的,則屬性集合P
是相對於決策屬性d
獨立的(獨立的:P
中任意屬性都是d
不可省略的),其充分必要條件爲:
H({d}∣P)!=H({d}∣P−{r})
就是說對於決策屬性d
,P
中任意一個屬性r
都不能少
論域 U
是在 P
上相對於 {d}
一致的 ⟺POSp({d})=U
屬性集合P
是相對於決策屬性d
獨立的 ⟺ P
中任意屬性都是決策屬性d
不可省略的
! = :不等於
定理8:約簡
條件 :U
是論域,P、Q
是U
上一個條件屬性集合,d
爲決策屬性,且論域 U
是在 P
上相對於 {d}
一致的,則Q⊆P是P
相對於決策屬性d
的一個 約簡 的充分必要條件爲:
H({d}∣Q)=H({d}∣P) 且 Q
是相對於決策屬性d
獨立的
論域 U
是在 P
上相對於 {d}
一致的 ⟺POSp({d})=U
屬性集合Q
是相對於決策屬性d
獨立的 ⟺ Q
中任意屬性都是決策屬性d
不可省略的
定理7、8的證明,根據定理6和相對獨立與相對約簡的定義可以得到。
屬性重要性
- 屬性重要性 的知識約簡中的一個重要概念,但是 屬性重要性 在代數上和信息論上的定義是不一致的。
- SGF(a,A,F)的值越大,說明在已知條件下,屬性對決策D越重要。
- 信息論定義 包含 代數定義
定義4:(屬性重要性信息論觀點)
:考慮的是該屬性對論域中不確定分類子集的影響。
設T=(U,R,V,f)是一個決策表系統,其中R=C∪D,C
是條件屬性集合,D={d}
是決策屬性集合,且A∈C,則對任意屬性a∈C−A的重要性SGF(a,A,D)
定義爲:
SGF(a,A,D)=H(D∣A)−H(D∣A∪{a})
定義5:(屬性重要性代數觀點)
:考慮的是該屬性對論域中確定分類子集的影響。
F
是屬性集D
導出的分類,C
是條件屬性集合,D={d}
是決策屬性集合,且A⊂C,則對任意屬性a∈C−A的重要性SGF(a,A,D)
定義爲:
SGF(a,A,D)=rA∪a(F)−rA(F)
公式解釋:
P,Q:知識(屬性集合)。
Card(U ):U中對象數目
POSP(Q):Q的P正域 ⟺∪P_(X) ;
解釋:論域U中那些使用U/P所表達的知識,可以正確地劃入到U/Q的等價類的對象集合中(個人理解:U/P/Q)
Link:依賴度詳細解釋鏈接
定理9:
如果 H(D∣A∪{a})=H(D∣A) 則 POSA∪{a}(F)=POSA(F).
定理9引理:
論域爲U
,某個等價關係在U上形成的劃分爲A1=X1,X2,...,Xn,而 A2={X1,X2,...,Xi−1,Xi+1,...,Xj−1,Xj+1,...,Xn,Xi∪Xj}是將劃A1中某兩個等價塊Xi、Xj合併爲Xi∪Xj得到的新劃分。B=Y1,Y2,...,Ym也是U
上的一個劃分,且記:
H(B∣A1)=−i=1∑np(Xi)j=1∑mp(Yj∣Xi)log(p(Yj∣Xi))
H(B∣A2)=H(B∣A1)−p(Xi∪Xj)k=1∑mp(Yk∣Xi∪Xj)log(p(Yk∣Xi∪Xj))+p(Xi)k=1∑mp(Yk∣Xi)log(p(Yk∣Xi))+p(Xj)k=1∑mp(Yk∣Xj)log(p(Yk∣Xj))
則:H(B∣A2)≥H(B∣A1)
引理證明:之後加上
如果將決策表屬性的分類進行合併,將導致條件熵的單調上升,只有發生合併的兩個分類對於決策類的隸屬度(概率)相等的情況之下,纔可能不會導致條件熵的變化。
條件信息熵的知識約簡算法
若一個屬性不能爲另一個屬性集合的分類增加任何信息,我們可以將它約簡。
CEBARKCC算法:核屬性爲起點 ,由內到外增加屬性。
CEBARKNC算法:所有屬性爲起點,由外到內減少屬性。
MIBARK算法:條件屬性和決策屬性的互信息基礎之上。
CEBARKCC算法
- 以核屬性爲起點
- 逐次使用H(D∣B∪{a})最小的非核屬性a添加到核屬性集中
- 直到H(D∣C)=H(D∣C)
CEBARKNC算法
- 決策參考重要度:H(D∣{a}) ,越大參考重要度越小
- 所有初始屬性集
- 逐步刪除屬性達到約簡的目的
MIBARK算法
- 以核屬性爲起點
- 條件屬性和決策屬性的互信息作爲判斷條件,進行約簡
核值比
決策表T=(U,C∪D,V,f)的核值比定義爲:
核值比b=約簡後的基m2核的基m1
基:屬性數目
最後
- 一般信息表,約簡計算的代數定義 = 信息論定義
- 一致決策表,約簡計算的代數定義 = 信息論定義
- 普通(包含矛盾、衝突)決策表,兩種定義的 屬性重要性 和 知識約簡 不相同。(一個決策表的代數觀點下的約簡,不能保證約簡之後的信息熵 不發生變化)。說知識約簡的信息論觀點包含代數觀點。
想要閱讀相關論文:《基於條件熵的決策表約簡》 Guoyin Wang、Hong Yu、Dachun Yang