粗糙集基本理論知識——入門必看

粗糙集定義

粗糙集（Rough Set, RS）是處理不精確、不確定和不完全數據的有效數學工具，由Pawlak教授在1982年提出。RS 的研究對象是決策表（信息表），且不需要額外的先驗知識來分析數據。

定義1 一個積木的信息系統S可以由一個四元組（決策表）S=（U，A，V，f）表示

其中：
U={ $\ x_{1},x_{2},... ...,x_{|U|}$ }是非空有限的對象集合，稱爲論域。
A={ $\ a_{1},a_{2},... ...,a_{|A|}$ }是非空有限的屬性集合，A = $\ C\bigcup D$ ,C是條件屬性，D是決策屬性。
V = $\bigcup_{a\in{A}}V_{a}$ 是值域。V_a表示在論域U中屬性a相同的一組對象
$\ f$ : $\ U \times A_{a}\rightarrow V_{a}$ 是信息函數，即 $\forall x\in{U},a\in{A},f(x,a)\in V_{a}$ 。
例如：
存在如下系統表S

論域	顏色	形狀	大小	穩定性
X1	紅	三角	大	穩定
X2	紅	三角	大	穩定
X3	黃	圓	小	不穩定
X4	黃	圓	小	不穩定
X5	藍	方塊	大	穩定
X6	紅	圓	中	不穩定
X7	藍	圓	小	不穩定
X8	藍	方塊	中	不穩定

其中U是指{ $\ x_{1},x_{2},x_{3},x_{4},x_{5},x_{6},x_{7},x_{8}$ },A是指{顏色，形狀，大小，穩定性}，決策屬性D是指穩定性，其餘是指條件屬性C。V是指根據a₁顏色分類可以將S分成{{ $\ x_{1},x_{2},x_{6}$ },{ $\ x_{3},x_{4}$ },{ $x_{5},x_{7},x_{8}$ } },類似的還可以根據其他的條件屬性來分類。f是指根據不同是條件屬性的約束可以從U中選中不同的論域。例如，大三角形是指{ $\ x_{1},x_{2}$ },f就是從大三角形到{ $\ x_{1},x_{2}$ }的映射。
要想了解粗糙集合論的思想，首先要知道什麼叫做知識，一種對集合U的劃分就對應着關於U中元素的一個知識。
每個積木塊都有顏色屬性，按照顏色的不同，我們能夠把這堆積木分成R1={紅，黃，藍} 三個大類，那麼：

紅顏色的積木構成集合X1={x1,x2,x6}
黃顏色的積木構成集合X2={x3,x4}
藍顏色的積木構成集合X3={x5,x7,x8}
按照顏色這個屬性我們就把積木集合A進行了一個劃分( 所謂A的劃分就是指對於A中的任意一個元素必然屬於且僅屬於一個分類），那麼我們就說顏色屬性就是一種知識。在這個例子中我們不難看到，一種對集合A 的劃分就對應着關於A 中元素的一個知識，假如還有其他的屬性，比如還有形狀R2={三角, 方塊, 圓形} ，大小R3={大, 中, 小} ，這樣加上R1屬性對A 構成的劃分分別爲：
U/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7,x8}}（顏色分類）
U/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6,x7}} （形狀分類）
U/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4,x7}} （大小分類）
上面這些所有的分類合在一起就形成了一個基本的知識庫。那麼這個基本知識庫能表示什麼概念呢？除了紅的{x1,x2,x6} 、大的{x1,x2,x5} 、三角形的{x1,x2} 這樣的概念以外，還可以表達例如：
大的且是三角形的{x1,x2,x5} ∩ {x1,x2}={x1,x2}
大三角{x1,x2,x5} ∩{x1,x2}={x1,x2}
藍色的小的圓形({x5,x7,x8} ∩{x3,x4,x7} ∩{x3,x4,x6,x7}={x7}
藍色的或者中的積木{x5,x7,x8} ∪{x6,x8}={x5,x6,x7,x8}

而類似這樣的概念可以通過求交運算得到，比如X1與Y1的交就表示紅色的三角形。所有的這些能夠用交、並表示的概念以及加上上面的三個基本知識(A/R1,A/R2.A/R3) 一起就構成了一個知識系統記爲R=R1∩R2∩R3，它所決定的所有知識是A/R={{x1,x2},{x3},{x4},{x5},{x6},{x7},{x8}}以及A/R 中集合的並。

下面考慮近似這個概念。假設給定了一個A上的子集合X={x2,x5,x7} ，那麼用我們的知識庫中的知識應該怎樣描述它呢？紅色的三角？藍色的大圓？都不是，無論是單屬性知識還是由幾個知識進行交、並運算合成的知識，都不能得到這個新的集合X，於是我們只好用我們已有的知識去近似它。也就是在所有的現有知識裏面找出跟他最像的兩個一個作爲下近似，一個作爲上近似。於是我們選擇了“藍色的大方塊或者藍色的小圓形” 這個概念：{x5,x7}作爲X的下近似；選擇“三角形或者藍色的”{x1,x2,x5,x7} 作爲它的上近似，值得注意的是：

下近似集是在那些所有的包含於X 的知識庫中的集合中求並得到的（包含在X內的最大可定義集）
上近似則是將那些包含X的知識庫中的集合求並得到的（包含X的最小可定義集）
與上下近似集概念相關的概念還有正域、負域和邊界。
設O 表示具有穩定性的集合，則O = {x1，x2，x5},設R 表示條件屬性所構成的一個等效關係，根據R的劃分不同，該論域被分割爲七個等效類：A/R={{x1,x2},{x3},{x4},{x5},{x6},{x7},{x8}}。x1,x2在同一個等效類中，他們都爲紅色大三角，是不可分辨的. 則：
集合O 的下逼近（即正區）爲 I_R*(O) = POS_R (O) = {x1，x2，x5}
集合O 的負區爲 NEG (O) = {x3，x4，x6，x7，x8}
集合O 的邊界區爲 BND (O) = 空集
集合O 的上逼近爲 I_* (O) = PO S (O) + BND (O) = {x1，x2，x5}
一般的，我們可以用下面的圖來表示上、下近似的概念。

這其中藍色曲線圍的區域是X的區域，紫色曲線圍的部分是內部參考消息，是下近似，紅色曲線圍的內部部分就是上近似集。其中各個小方塊可以被看成是論域上的知識系統所構成的所有劃分。整個粗集理論的核心就是上面說的有關知識、集合的劃分、近似集合等等概念。

下面我們討論一下關於粗糙集在數據庫中數據挖掘的應用問題。考慮一個數據庫中的二維表如上面的表所示：

從上面的表可以看出，最後一列是我們的決策屬性，用來評價什麼樣的積木穩定，表中的每一行表示了類似這樣的信息：紅色的大三角積木穩定，藍色的小圓不穩定等等。
我們可以把所有的記錄看成是論域A={x1,x2,x3,x4,x5,x6,x7,x8} ，任意一個列表示一個屬性構成了對論域的元素上的一個劃分，在劃分的每一個類中都具有相同的屬性。而屬性可以分成兩大類，一類叫做條件屬性：顏色、形狀、大小都是，另一類叫做決策屬性：最後一列的是否穩定？下面我們考慮，對於決策屬性來說是否所有的條件屬性都是有用的呢？
考慮所有決策屬性是“穩定”的集合{x1,x2,x5} ，它在知識系統U/R 中的上、下近似都是{x1,x2,x5} 本身，“不穩定”的集合{x3,x4,x6,x7,x8} ，在知識系統A/R 中的上、下近似也都是{x3,x4,x6,x7,x8} 它本身。說明該知識庫能夠對這個概念進行很好的描述。

下面考慮是否所有的基本知識：顏色、形狀、大小都是必要的嗎？

如果我們把這個集合在知識系統中去掉顏色這個基本知識，那麼知識系統變成：U/(R-R1)={{x1,x2},{x3,x4,x7},{x5},{x6},{x8}} 以及這些子集的並集。如果用這個新的知識系統表達“穩定”概念得到上下近似仍舊都是： {x1,x2,x5} ，“不穩定”概念的上下近似也還是{x3,x4,x6,x7,x8} ，由此看出去掉顏色屬性我們表達穩定性的知識不會有變化，所以說顏色屬性是多餘的可以刪除。

如果再考慮是否能去掉大小屬性呢？這個時候知識系統就變爲：U/(R-R1-R3)=A/R2={{x1,x2},{x5,x8},{x3,x4,x6,x7}} 。同樣考慮“穩定”在知識系統U/R2 中的上下近似分別爲：{x1,x2} 和{x1,x2,x5,x8} ，已經和原來知識系統中的上下近似不一樣了，同樣考慮 “不穩定” 的近似表示也變化了，所以刪除屬性“大小”是對知識表示有影響的故而不能去掉。同樣的討論對於“形狀”屬性也一樣，它是不能去掉的。

最後我們可以得出結論：我們得到化簡後的知識庫R2,R3，從而能得到下面的決策規則：大三角-> 穩定，大方塊-> 穩定，小圓-> 不穩定，中圓-> 不穩定，中方塊-> 不穩定，利用粗糙集的理論還可以對這些規則進一步化簡得到：大-> 穩定，圓-> 不穩定，中方塊-> 不穩定。這就是上面這個數據表所包含的真正有用的知識，而這些知識都是從數據庫有粗糙集方法自動學習得到的。

粗糙集基本理論知識——入門必看

粗糙集定義

定義1 一個積木的信息系統S可以由一個四元組（決策表）S=（U，A，V，f）表示

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

優化算法與特徵選擇

矩陣快速冪之整數快速冪

hdu 1757 A Simple Math Problem（矩陣快速冪）

hud 1298 T9(字典樹 + DFS詳解)

粗糙集基本理論知識——入門必看

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結