條件信息熵的決策表約簡

條件信息熵的決策表約簡

本文使用信息論的觀點對Rough Set理論進行研究,並且與代數觀點進行對比。

寫在前面

對決策表的描述如圖所示:
在這裏插入圖片描述

信息論觀點描述

使用熵還衡量某些 屬性 的需要程度。

U:論域
U上任一屬性集合(知識、等價關係簇) 是 定義在U上的子集組成e代數上的一個隨機變量
此隨機變量的概率分佈可通過如下方式確定:

定義1:P,Q 概率分佈

P,Q在U上導出的劃分分別爲X,YX={X1,X2,...,Xn},Y={Y1,Y2,...,Ym}X=\{X_1,X_2,...,X_n\} ,Y = \{Y_1,Y_2,...,Y_m\}),則P,QU的子集組成的e代數上的概率分佈爲
[X:p]=[X1X2Xnp(X1)p(X2)p(Xn)][X:p] = \begin{bmatrix} X_1 & X_2 &\cdots & X_n \\ p(X_1) &p(X_2) & \cdots & p(X_n) \end{bmatrix}
[Y:p]=[Y1Y2Ymp(Y1)p(Y2)p(Ym)][Y:p] = \begin{bmatrix} Y_1 & Y_2 &\cdots & Y_m \\ p(Y_1) &p(Y_2) & \cdots & p(Y_m) \end{bmatrix}

其中:
P、Q是知識(屬性集合);
p(Xi)=XiUi={1,2,...,n}p(X_i)=\frac{| X_i |}{ | U |},i=\{1,2,...,n\}
p(Yj)=YjUj={1,2,...,m}p(Y_j)=\frac{| Y_j |}{ | U |},j=\{1,2,...,m\}

定義2:熵 H( P ) 定義

知識(屬性集合)P 的熵 H( P ) 定義爲
H(P)=i=1np(Xi)log(p(Xi))H( P) = -\sum_{i=1}^n p(X_i)log( p(X_i))

定義3:條件熵H(Q|P)定義

知識(屬性集合)Q(UIND(Q))={Y1,Y2,...,Ym}Q(U|IND(Q)) = \{Y_1,Y_2,...,Y_m\}
相對於
知識(屬性集合)P(UIND(P))={X1,X2,...,Xn}P(U|IND(P)) = \{X_1,X_2,...,X_n\}
的條件熵H(Q|P)定義爲:
H(QP)=i=1np(Xi)j=1mp(YjXi)log(p(YjXi))H(Q|P)=-\sum_{i=1}^np(X_i)\sum_{j=1}^mp(Y_j|X_i)log(p(Y_j|X_i))

其中 p(YjXi)=YjXiXii={1,2,...,n}j={1,2,...,m}p(Y_j|X_i) = \frac{|Y_j\cap X_i|}{|X_i|};i=\{1,2,...,n\};j=\{1,2,...,m\}

機器學習中的信息論觀點鏈接
IND( P ) 和 IND( Q ) 代表 等價關係(不可分辨關係)

設由屬性集合 PD = { d }D是決策屬性)導出的對論域 U = ( | U | = n) 的劃分分別爲:UIND(P)={X1,X2,...,Xn}U | IND(P) =\{X_1,X_2,...,X_n\}UIND(d)={Z1,Z2,...,Zs}U | IND({d}) =\{Z_1,Z_2,...,Z_s\} 則可推導以下定理:

定理1:條件熵H(Q|P)計算

H(DP)=H(DP)H(P)H(D|P)= H(D \cup P) - H(P)

條件熵計算鏈接

定理2:不可分辨關係和熵

條件 :U是論域,P、QU上兩個屬性集合。
IND(Q)=IND(P)IND(Q) = IND( P),則 H(Q)=H(P)H(Q)=H( P)
IND(Q)=IND(P)H(Q)=H(P)IND(Q) = IND( P) \Longrightarrow H(Q)=H( P)
Note:逆不成立

定理3:熵和不可分辨關係

條件 :U是論域,P、QU上兩個屬性集合,並且 PQP \subseteq Q
H(Q)=H(P)H(Q)=H( P),則IND(Q)=IND(P)IND(Q) = IND( P)

IND(Q)=IND(P)H(Q)=H(P)IND(Q) = IND( P) \Longrightarrow H(Q)=H( P)

定理4:不必要屬性和必要屬性

條件 :U是論域,PU上一個屬性集合,
P 中的屬性 r不必要 的,其 充分必要 條件爲:
H(rPr)=0H({r}|P-{r}) = 0

P 中的屬性 r必要 的,其 充分必要 條件爲:
H(rPr)>0H({r}|P-{r}) > 0

定理5:屬性約簡

條件 :U是論域,P、QU上一個屬性集合,QPQ \subseteq PP的一個約簡的充分必要條件爲H(Q)=H(P)H(Q)=H(P),且對任意的qQq \in Q都有H(qQq)>0H({q} | Q-{q}) > 0

相對約簡


以上僅僅是針對一般信息表約簡的問題,而對於相對約簡,有如下定理:


定理6:多餘屬性

條件 :U是論域,P、QU上一個條件屬性集合,d 爲決策屬性,且論域 U 是在 P上相對於 {d}一致的 (POSp({d})=U)(含義:POS_p(\{d\})=U),則屬性rP相對於決策屬性d不必要的(多餘的),其充分必要條件爲:
H({d}P)=H({d}P{r})H(\{d\}|P)=H(\{d\}|P-\{r\})

論域 U 是在 P上相對於 {d}一致的     POSp({d})=U\iff POS_p(\{d\})=U
證明:下次撰寫。

定理7:獨立

條件 :U是論域,P、QU上一個條件屬性集合,d 爲決策屬性,且論域 U 是在 P上相對於 {d}一致的,則屬性集合P是相對於決策屬性d獨立的(獨立的:P中任意屬性都是d不可省略的),其充分必要條件爲:
H({d}P)!=H({d}P{r})H(\{d\}|P) != H(\{d\}|P-\{r\})

就是說對於決策屬性dP中任意一個屬性r都不能少

論域 U 是在 P上相對於 {d}一致的     POSp({d})=U\iff POS_p(\{d\})=U
屬性集合P是相對於決策屬性d獨立的     \iff P中任意屬性都是決策屬性d不可省略的
! = :不等於

定理8:約簡

條件 :U是論域,P、QU上一個條件屬性集合,d 爲決策屬性,且論域 U 是在 P上相對於 {d}一致的,則QPQ \subseteq PP相對於決策屬性d的一個 約簡 的充分必要條件爲:

H({d}Q)=H({d}P)H(\{d\}|Q) = H(\{d\}|P)Q是相對於決策屬性d獨立的

論域 U 是在 P上相對於 {d}一致的     POSp({d})=U\iff POS_p(\{d\})=U
屬性集合Q是相對於決策屬性d獨立的     \iff Q中任意屬性都是決策屬性d不可省略的


定理7、8的證明,根據定理6和相對獨立與相對約簡的定義可以得到。


屬性重要性

  • 屬性重要性 的知識約簡中的一個重要概念,但是 屬性重要性 在代數上和信息論上的定義是不一致的。
  • SGF(a,A,F)的值越大,說明在已知條件下,屬性對決策D越重要。
  • 信息論定義 包含 代數定義

定義4:(屬性重要性信息論觀點)

:考慮的是該屬性對論域中不確定分類子集的影響。

T=(U,R,V,f)T = (U,R,V,f)是一個決策表系統,其中R=CDR=C\cup DC是條件屬性集合,D={d}是決策屬性集合,且ACA\in C,則對任意屬性aCAa \in C-A的重要性SGF(a,A,D)定義爲:
SGF(a,A,D)=H(DA)H(DA{a})SGF(a,A,D)=H(D|A) - H(D|A\cup \{a\})

定義5:(屬性重要性代數觀點)

:考慮的是該屬性對論域中確定分類子集的影響。

F是屬性集D導出的分類,C是條件屬性集合,D={d}是決策屬性集合,且ACA\subset C,則對任意屬性aCAa \in C-A的重要性SGF(a,A,D)定義爲:
SGF(a,A,D)=rAa(F)rA(F)SGF(a,A,D)=r_{A\cup a}(F) - r_A(F)

公式解釋:

P,Q:知識(屬性集合)。
依賴度
Card(U ):U中對象數目
POSP(Q)POS_P(Q):Q的P正域     P_(X)\iff\cup P\_(X)

解釋:論域U中那些使用U/P所表達的知識,可以正確地劃入到U/Q的等價類的對象集合中(個人理解:U/P/QU/P/Q
圖示
Link:依賴度詳細解釋鏈接

定理9:

如果 H(DA{a})=H(DA)H(D|A\cup \{a\}) = H(D|A)POSA{a}(F)=POSA(F)POS_{A\cup \{a\}}(F) =POS_A(F).

定理9引理:

論域爲U,某個等價關係在U上形成的劃分爲A1=X1,X2,...,XnA_1={X_1,X_2,...,X_n},而 A2={X1,X2,...,Xi1,Xi+1,...,Xj1,Xj+1,...,Xn,XiXj}A_2=\{X_1,X_2,...,X_{i-1},X_{i+1},...,X_{j-1},X_{j+1},...,X_n,X_i \cup X_j \}是將劃A1A_1中某兩個等價塊XiX_iXjX_j合併爲XiXjX_i\cup X_j得到的新劃分。B=Y1,Y2,...,YmB={Y_1,Y_2,...,Y_m}也是U上的一個劃分,且記:
H(BA1)=i=1np(Xi)j=1mp(YjXi)log(p(YjXi))H(B|A_1)=-\sum_{i=1}^np(X_i)\sum_{j=1}^mp(Y_j|X_i)log(p(Y_j|X_i))
H(BA2)=H(BA1)p(XiXj)k=1mp(YkXiXj)log(p(YkXiXj))+p(Xi)k=1mp(YkXi)log(p(YkXi))+p(Xj)k=1mp(YkXj)log(p(YkXj))H(B|A_2)=H(B|A_1)-p(X_i \cup X_j)\sum_{k=1}^mp(Y_k|X_i \cup X_j)log(p(Y_k|X_i \cup X_j))+ p(X_i)\sum_{k=1}^mp(Y_k|X_i)log(p(Y_k|X_i))+ p(X_j)\sum_{k=1}^mp(Y_k|X_j)log(p(Y_k|X_j))
則:H(BA2)H(BA1)H(B|A_2) \ge H(B|A_1)

引理證明:之後加上

如果將決策表屬性的分類進行合併,將導致條件熵的單調上升,只有發生合併的兩個分類對於決策類的隸屬度(概率)相等的情況之下,纔可能不會導致條件熵的變化。

條件信息熵的知識約簡算法

若一個屬性不能爲另一個屬性集合的分類增加任何信息,我們可以將它約簡。

CEBARKCC算法:核屬性爲起點 ,由內到外增加屬性。
CEBARKNC算法:所有屬性爲起點,由外到內減少屬性。
MIBARK算法:條件屬性和決策屬性的互信息基礎之上。

CEBARKCC算法

  • 以核屬性爲起點
  • 逐次使用H(DB{a})H(D|B\cup \{a\})最小的非核屬性a添加到核屬性集中
  • 直到H(DC)=H(DC)H(D|C)= H(D|C)

CEBARKNC算法

  • 決策參考重要度:H(D{a})H(D|\{a\}) ,越大參考重要度越小
  • 所有初始屬性集
  • 逐步刪除屬性達到約簡的目的

MIBARK算法

  • 以核屬性爲起點
  • 條件屬性和決策屬性的互信息作爲判斷條件,進行約簡

核值比

決策表T=(U,CD,V,f)T = (U,C\cup D,V,f)的核值比定義爲:
b=m1m2核值比 b = \frac{核的基m_1}{約簡後的基m_2}

基:屬性數目

時間複雜度

最後

  • 一般信息表,約簡計算的代數定義 = 信息論定義
  • 一致決策表,約簡計算的代數定義 = 信息論定義
  • 普通(包含矛盾、衝突)決策表,兩種定義的 屬性重要性 和 知識約簡 不相同。(一個決策表的代數觀點下的約簡,不能保證約簡之後的信息熵 不發生變化)。說知識約簡的信息論觀點包含代數觀點。

想要閱讀相關論文:《基於條件熵的決策表約簡》 Guoyin Wang、Hong Yu、Dachun Yang

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章