條件信息熵的決策表約簡

本文使用信息論的觀點對Rough Set理論進行研究，並且與代數觀點進行對比。

寫在前面

對決策表的描述如圖所示：

信息論觀點描述

使用熵還衡量某些屬性的需要程度。

U：論域
U上任一屬性集合（知識、等價關係簇） 是定義在U上的子集組成e代數上的一個隨機變量
此隨機變量的概率分佈可通過如下方式確定：

定義1：P，Q 概率分佈

設P，Q在U上導出的劃分分別爲X，Y（ $X=\{X_1,X_2,...,X_n\} ,Y = \{Y_1,Y_2,...,Y_m\}$ ），則P，Q在U的子集組成的e代數上的概率分佈爲
$[X:p] = \begin{bmatrix} X_1 & X_2 &\cdots & X_n \\ p(X_1) &p(X_2) & \cdots & p(X_n) \end{bmatrix}$
$[Y:p] = \begin{bmatrix} Y_1 & Y_2 &\cdots & Y_m \\ p(Y_1) &p(Y_2) & \cdots & p(Y_m) \end{bmatrix}$

其中：
P、Q是知識（屬性集合）；
$p(X_i)=\frac{| X_i |}{ | U |}，i=\{1,2,...,n\}$ ；
$p(Y_j)=\frac{| Y_j |}{ | U |}，j=\{1,2,...,m\}$ 。

定義2：熵 H( P ) 定義

知識（屬性集合）P 的熵 H( P ) 定義爲
$H( P) = -\sum_{i=1}^n p(X_i)log( p(X_i))$

定義3：條件熵`H(Q|P)`定義

知識（屬性集合） $Q(U|IND(Q)) = \{Y_1,Y_2,...,Y_m\}$
相對於
知識（屬性集合） $P(U|IND(P)) = \{X_1,X_2,...,X_n\}$
的條件熵H(Q|P)定義爲：
$H(Q|P)=-\sum_{i=1}^np(X_i)\sum_{j=1}^mp(Y_j|X_i)log(p(Y_j|X_i))$

其中 $p(Y_j|X_i) = \frac{|Y_j\cap X_i|}{|X_i|}；i=\{1,2,...,n\}；j=\{1,2,...,m\}$ 。

機器學習中的信息論觀點鏈接
IND( P ) 和 IND( Q ) 代表等價關係（不可分辨關係）

設由屬性集合 P 和 D = { d }（D是決策屬性）導出的對論域 U = ( | U | = n) 的劃分分別爲： $U | IND(P) =\{X_1,X_2,...,X_n\}$ 和 $U | IND({d}) =\{Z_1,Z_2,...,Z_s\}$ 則可推導以下定理：

定理1：條件熵`H(Q|P)`計算

$H(D|P)= H(D \cup P) - H(P)$

條件熵計算鏈接

定理2：不可分辨關係和熵

條件：U是論域，P、Q是U上兩個屬性集合。
若 $IND(Q) = IND( P)$ ，則 $H(Q)=H( P)$ 。
$IND(Q) = IND( P) \Longrightarrow H(Q)=H( P)$
Note：逆不成立

定理3：熵和不可分辨關係

條件：U是論域，P、Q是U上兩個屬性集合，並且 $P \subseteq Q$ 。
若 $H(Q)=H( P)$ ，則 $IND(Q) = IND( P)$ 。

$IND(Q) = IND( P) \Longrightarrow H(Q)=H( P)$

定理4：不必要屬性和必要屬性

條件：U是論域，P是U上一個屬性集合，
P 中的屬性 r 是 不必要 的，其 充分必要 條件爲：
$H({r}|P-{r}) = 0$

P 中的屬性 r 是必要的，其 充分必要 條件爲：
$H({r}|P-{r}) > 0$

定理5：屬性約簡

條件：U是論域，P、Q是U上一個屬性集合， $Q \subseteq P$ 是P的一個約簡的充分必要條件爲 $H(Q)=H(P)$ ，且對任意的 $q \in Q$ 都有 $H({q} | Q-{q}) > 0$

相對約簡

以上僅僅是針對一般信息表約簡的問題，而對於相對約簡，有如下定理：

定理6：多餘屬性

條件：U是論域，P、Q是U上一個條件屬性集合，d 爲決策屬性，且論域 U 是在 P上相對於 {d}一致的 $(含義：POS_p(\{d\})=U)$ ，則屬性r是P相對於決策屬性d不必要的（多餘的），其充分必要條件爲：
$H(\{d\}|P)=H(\{d\}|P-\{r\})$

論域 U 是在 P上相對於 {d}一致的 $\iff POS_p(\{d\})=U$
證明：下次撰寫。

定理7：獨立

條件：U是論域，P、Q是U上一個條件屬性集合，d 爲決策屬性，且論域 U 是在 P上相對於 {d}一致的，則屬性集合P是相對於決策屬性d獨立的（獨立的：P中任意屬性都是d不可省略的），其充分必要條件爲：
$H(\{d\}|P) != H(\{d\}|P-\{r\})$

就是說對於決策屬性d，P中任意一個屬性r都不能少

論域 U 是在 P上相對於 {d}一致的 $\iff POS_p(\{d\})=U$
屬性集合P是相對於決策屬性d獨立的 $\iff$ P中任意屬性都是決策屬性d不可省略的
! = ：不等於

定理8：約簡

條件：U是論域，P、Q是U上一個條件屬性集合，d 爲決策屬性，且論域 U 是在 P上相對於 {d}一致的，則 $Q \subseteq P$ 是P相對於決策屬性d的一個約簡的充分必要條件爲：

$H(\{d\}|Q) = H(\{d\}|P)$ 且 Q是相對於決策屬性d獨立的

論域 U 是在 P上相對於 {d}一致的 $\iff POS_p(\{d\})=U$
屬性集合Q是相對於決策屬性d獨立的 $\iff$ Q中任意屬性都是決策屬性d不可省略的

定理7、8的證明，根據定理6和相對獨立與相對約簡的定義可以得到。

屬性重要性

屬性重要性 的知識約簡中的一個重要概念，但是 屬性重要性 在代數上和信息論上的定義是不一致的。
SGF(a,A,F)的值越大，說明在已知條件下，屬性對決策D越重要。
信息論定義包含代數定義

定義4：（屬性重要性信息論觀點）

：考慮的是該屬性對論域中不確定分類子集的影響。

設 $T = (U,R,V,f)$ 是一個決策表系統，其中 $R=C\cup D$ ，C是條件屬性集合，D={d}是決策屬性集合，且 $A\in C$ ，則對任意屬性 $a \in C-A$ 的重要性SGF(a,A,D)定義爲：
$SGF(a,A,D)=H(D|A) - H(D|A\cup \{a\})$

定義5：（屬性重要性代數觀點）

：考慮的是該屬性對論域中確定分類子集的影響。

F是屬性集D導出的分類，C是條件屬性集合，D={d}是決策屬性集合，且 $A\subset C$ ，則對任意屬性 $a \in C-A$ 的重要性SGF(a,A,D)定義爲：
$SGF(a,A,D)=r_{A\cup a}(F) - r_A(F)$

公式解釋：

P，Q：知識（屬性集合）。

Card(U )：U中對象數目
$POS_P(Q)$ ：Q的P正域 $\iff\cup P\_(X)$ ；

解釋：論域U中那些使用U/P所表達的知識，可以正確地劃入到U/Q的等價類的對象集合中（個人理解： $U/P/Q$ ）

Link：依賴度詳細解釋鏈接

定理9：

如果 $H(D|A\cup \{a\}) = H(D|A)$ 則 $POS_{A\cup \{a\}}(F) =POS_A(F)$ .

定理9引理：

論域爲U，某個等價關係在U上形成的劃分爲 $A_1={X_1,X_2,...,X_n}$ ，而 $A_2=\{X_1,X_2,...,X_{i-1},X_{i+1},...,X_{j-1},X_{j+1},...,X_n,X_i \cup X_j \}$ 是將劃 $A_1$ 中某兩個等價塊 $X_i$ 、 $X_j$ 合併爲 $X_i\cup X_j$ 得到的新劃分。 $B={Y_1,Y_2,...,Y_m}$ 也是U上的一個劃分，且記：
$H(B|A_1)=-\sum_{i=1}^np(X_i)\sum_{j=1}^mp(Y_j|X_i)log(p(Y_j|X_i))$
$H(B|A_2)=H(B|A_1)-p(X_i \cup X_j)\sum_{k=1}^mp(Y_k|X_i \cup X_j)log(p(Y_k|X_i \cup X_j))+ p(X_i)\sum_{k=1}^mp(Y_k|X_i)log(p(Y_k|X_i))+ p(X_j)\sum_{k=1}^mp(Y_k|X_j)log(p(Y_k|X_j))$
則： $H(B|A_2) \ge H(B|A_1)$

引理證明：之後加上

如果將決策表屬性的分類進行合併，將導致條件熵的單調上升，只有發生合併的兩個分類對於決策類的隸屬度（概率）相等的情況之下，纔可能不會導致條件熵的變化。

條件信息熵的知識約簡算法

若一個屬性不能爲另一個屬性集合的分類增加任何信息，我們可以將它約簡。

CEBARKCC算法：核屬性爲起點，由內到外增加屬性。
CEBARKNC算法：所有屬性爲起點，由外到內減少屬性。
MIBARK算法：條件屬性和決策屬性的互信息基礎之上。

CEBARKCC算法

以核屬性爲起點
逐次使用 $H(D|B\cup \{a\})$ 最小的非核屬性a添加到核屬性集中
直到 $H(D|C)= H(D|C)$

CEBARKNC算法

決策參考重要度： $H(D|\{a\})$ ,越大參考重要度越小
所有初始屬性集
逐步刪除屬性達到約簡的目的

MIBARK算法

以核屬性爲起點
條件屬性和決策屬性的互信息作爲判斷條件，進行約簡

核值比

決策表 $T = (U,C\cup D,V,f)$ 的核值比定義爲：
$核值比 b = \frac{核的基m_1}{約簡後的基m_2}$

基：屬性數目

最後

一般信息表，約簡計算的代數定義 = 信息論定義
一致決策表，約簡計算的代數定義 = 信息論定義
普通（包含矛盾、衝突）決策表，兩種定義的屬性重要性和知識約簡不相同。（一個決策表的代數觀點下的約簡，不能保證約簡之後的信息熵不發生變化）。說知識約簡的信息論觀點包含代數觀點。

想要閱讀相關論文：《基於條件熵的決策表約簡》 Guoyin Wang、Hong Yu、Dachun Yang

條件信息熵的決策表約簡

條件信息熵的決策表約簡

文章目錄

寫在前面

信息論觀點描述

定義1：P，Q 概率分佈

定義2：熵 H( P ) 定義

定義3：條件熵`H(Q|P)`定義

定理1：條件熵`H(Q|P)`計算

定理2：不可分辨關係和熵

定理3：熵和不可分辨關係

定理4：不必要屬性和必要屬性

定理5：屬性約簡

相對約簡

定理6：多餘屬性

定理7：獨立

定理8：約簡

屬性重要性

定義4：（屬性重要性信息論觀點）

定義5：（屬性重要性代數觀點）

定理9：

定理9引理：

條件信息熵的知識約簡算法

CEBARKCC算法

CEBARKNC算法

MIBARK算法

核值比

最後

vscode-textlive-paper學習記錄

貝葉斯網絡學習Python環境搭建（pgmpy）

Python的貝葉斯網絡學習庫pgmpy介紹和使用

CUDA GPU編程

makefile教程鏈接

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

條件信息熵的決策表約簡

條件信息熵的決策表約簡

文章目錄

寫在前面

信息論觀點描述

定義1：P，Q 概率分佈

定義2：熵 H( P ) 定義

定義3：條件熵H(Q|P)定義

定理1：條件熵H(Q|P)計算

定理2：不可分辨關係和熵

定理3：熵和不可分辨關係

定理4：不必要屬性和必要屬性

定理5：屬性約簡

相對約簡

定理6：多餘屬性

定理7：獨立

定理8：約簡

屬性重要性

定義4：（屬性重要性信息論觀點）

定義5：（屬性重要性代數觀點）

定理9：

定理9引理：

條件信息熵的知識約簡算法

CEBARKCC算法

CEBARKNC算法

MIBARK算法

核值比

最後

定義3：條件熵`H(Q|P)`定義

定理1：條件熵`H(Q|P)`計算