《數據挖掘概念與技術》第七章高級模式挖掘

頻繁模式挖掘是數據挖掘中頻繁項挖掘的基本目標。
另外包括閉頻繁項模式和極大頻繁項模式。

除了挖掘基本的頻繁項集和關聯外，還可以挖掘高級的模式形式，本章中分別介紹了：

多層關聯
多維關聯
量化關聯規則
稀有模式
負模式
高維模式
模式壓縮和近似模式

多層關聯

多層關聯涉及多個抽象層中的數據。例如戴爾電腦可以抽象到電腦，而索尼耳機可以抽象到耳機。這些可以使用多個最小支持度閾值挖掘。
對於多層關聯模式，閾值的選擇：
可以使用相同的閾值來挖掘關聯模式；也可以逐層降低來挖掘關聯模式，避免丟掉更低層中的關聯模式包含的信息；可以使用所有層中最小的閾值。

多層關聯中的副作用是，由於項之間的“祖先”關係，可能產生一些多個抽象層上的冗餘規則。例如

買電腦=>買惠普打印機（支持度8%，置信度70%） ——————（1.1）
買戴爾電腦=>買惠普打印機（支持度2%，置信度72%） ——————（1.2）

目前挖掘出了規則（1.1）和（1.2），那麼這兩個規則中，後一個子規則是有用的嗎？
其中，電腦是戴爾電腦的“祖先”，規則（1.1）是規則（1.2）的“祖先”。
這裏，給出一個冗餘性定義：

規則R1是規則R2的祖先，如果R1能夠通過將R2中的項用它在概念分層中的祖先替換得到，則R2冗餘。
根據這個定義，一個規則被認爲是冗餘的，如果根據規則的祖先，它的支持度和置信度都接近於“期望值”。

在該例子中，規則（1.1）具有70%置信度和8%支持度，並且大約1/4的電腦是戴爾電腦（1/4爲假設），那麼我們可以期望規則（1.2）具有大約70%的置信度和2%（8%*1/4）的支持度，如果確實是這樣，那麼規則（1.2）不是有趣的，它不提供任何附加的信息，並且一般性不如它的祖先。

多維關聯

多維關聯包含多個維。挖掘這種關聯的技術因如何處理重複謂詞而異。
如規則
age(X,“20,…,29”) ^ occupation(X,“student”) => buy(X,“laptop”)
其中，age、occupation、buy均爲謂詞，涉及兩個或多個維或謂詞的關聯規則稱爲多維關聯規則。多維中維度不同，即具有不重複謂詞，稱爲維間關聯規則；具有重複謂詞，則稱爲混合維關聯規則。

方法：

使用預先定義的概念分層對量化屬性離散化。使用量化屬性的靜態離散化挖掘多維關聯規則。
年齡離散化爲區間（20-30,30-40，…）
根據數據分佈將量化屬性離散化或聚類到“箱”。

在多維關聯中，我們搜索頻繁謂詞集。不是搜索頻繁項集。k-謂詞集是包含k個合取謂詞的集合。{age，occupation，buy}是一個3-謂詞集。

量化關聯

量化關聯規則設計量化屬性。
離散化、聚類和揭示異常行爲的統計分析可以與模式挖掘過程集成在一起。

基於數據立方體挖掘
將變換後的多維數據構造數據立方體，進行數據挖掘。
基於聚類
自頂向下方法。

對於每個量化維，可以使用一種標準的聚類算法，發現該維上滿足最小支持的閾值的簇。對於每個這樣的簇，我們考察該簇與另一維的一個簇或標稱屬性值組合生成的二維空間，看這一組合是否滿足最小支持度閾值。如果滿足，繼續考察更高維空間。在該過程中，我們可以使用先驗剪枝，如果在任一點，組合的支持度不滿足最小支持度，則它的進一步劃分或與其他維組合也都不滿足最小支持度。

這裏對於劃分不滿足明白，但對於與其他維組合不滿足不清楚。

使用統計學理論
即結果與現實經驗不符。

稀有模式和負模式

稀有模式是很少出現但特別有趣。負模式是其成員呈現負相關行爲的模式。
應該小心定義負模式，考慮零不變性。
稀有模式和負模式可能凸顯數據的異常行爲

零不變性

即值可能錯誤地被零事務影響，其中零事務是不包含被考察項集的任何項的事務。
這裏有一個很有趣的例子。
當考慮事務的總量不同時，會有不一樣的情況，定義7.3同理可證。

基於約束的挖掘

基於約束的挖掘策略可以用來引導挖掘過程，挖掘與用戶直觀一致或滿足某些約束的模式，許多用戶指定的約束都可以推進到挖掘過程中。
約束分爲模式剪枝約束和數據剪枝約束。
這些約束的性質包括單調性、反單調性、簡潔性、可變性、和數據反單調性。

其中，單調性基於滿足性，而反單調性基於違反條件。如果某個單元違反某條件，則它的任何超集也將違反該條件，則稱爲反單調。
滿足反單調的有：sum(S)<=v.
由於當前單元的和已經大於v，那麼它的任何超集都無法滿足小於等於v的條件。
單調的有：count(I)>10.
集合中的數量大於10，則進一步添加更多的商品到集合中會增加數量，也滿足條件。
簡潔性：是指該約束的集合可枚舉。
可轉變的約束：
約束avg(I.piece)<50.即價格的平均值不超過50，該約束既不是單調也不是反單調，但如果事務中的項以單價的遞增順序添加，則該約束就變成反單調的。

高維空間和模式融合

高維空間挖掘，爲挖掘維數很大但元組很少的數據集的基於行枚舉的模式增長方法，以及通過模式融合方法挖掘巨型模式。
（這個沒太理解）

模式壓縮和近似模式

爲了減少挖掘返回的模式數量，我們可以代之以挖掘壓縮模式或近似模式。
壓縮模式可以通過基於聚類概念定義代表模式來挖掘，而近似模式可以通過提取感知冗餘的top-k模式來挖掘。

模式壓縮

通過在聚類簇中找到代表模式進行模式壓縮。即模式壓縮可以通過模式聚類實現。
閉模式是頻繁模式集的無損壓縮，而極大模式是有損壓縮。
但使用閉項集和極大項集進行壓縮的缺點是：
當數據集中沒有閉項集，我們選擇極大項集來代表該數據的壓縮版本。但在之前我們已經知道，極大項集並不攜帶各項集的支持度信息，我們將失去整個支持度信息。
於是，我們提出，由於閉項集是原頻繁模式集的無損壓縮，我們在閉模式集合上發現代表模式。

這裏提出，閉模式之間的距離度量計算。
設P1和P2是兩個閉模式，他們的支持事務集分別爲T（P1）和T(P2)。則P1和P2的模式距離爲：
Pat_Dist(P1,P2)=1- (|T(P1)∩T(P2)|) / (|T(P1)∪T(P2)|)

模式距離是一種定義在事務集合上的有效距離度量。包含了模式的支持度信息。

例子：
假設P1、P2是兩個模式，使得T(P1)={t1,t2,t3,t4,t5},T(P2)={t1,t2,t3,t4,t6}，其中ti是數據庫中的事務。
那麼P1和P2的距離爲：
Pat_Dist(p1,p2)=1-|{t1,t2,t3,t4}|/|{t1,t2,t3,t4,t5,t6}| = 1 - 4/6 = 1/3

即：給定一個事務數據庫，最小支持度min_sup，和聚類質量度量o，模式壓縮問題及時找到一個代表模式的集合R，使得每個頻繁模式P，存在一個代表模式Pr屬於R，它覆蓋P，並且|R|是最小化的。

感知冗餘top-k模式

k個代表模式的小集合，它們不僅具有高顯著性，而且相互之間低冗餘。

在下圖中，顯著性用灰度表示，而球之間的距離越近，代表冗餘度越高。假定現在要找的代表模式個數爲3，即k=3.
圖中箭頭用來指示所選的模式，b爲感知冗餘的top-k模式選擇的模式，c爲傳統top-k模式選擇的模式，d爲k-概括模式選擇的模式。

很明顯的看出，c中模式選擇僅依賴顯著性，從集合中選出顯著性最高的三個模式，而不考慮冗餘。
d中模式選擇僅依賴非冗餘性選擇模式，先將集合劃分爲3簇，並發現最具代表性的模式是最靠近每個簇“中心”的模式。
而b中，在顯著性和相關性之間進行平衡。

那麼，顯著性和冗餘性該如何度量呢？

顯著性度量

顯著性度量S是一個函數，它把模式p∈P映射到一個實數值，使得S（p）是模式p的興趣度（或有用性）。該度量可以是主觀的也可以是客觀的。S（p,q）是模式p和q的聯合顯著性，S（p|q）=S(p,q)-S(q)是給定q、p的相對顯著性。
這裏應該注意S(p,q)是兩個模式的共同顯著性。

冗餘性

給定顯著性度量S，兩個模式p和q之間的冗餘性R定義爲R(p,q)=S§+S(q)-S(p,q)。
即有S(p|q) = S ( p) -R(p,q)。

假定兩個模式的聯合顯著性不小於任何一個模式的顯著性，並且不超過兩個模式的顯著性之和。也就是說兩個模式之間的冗餘應該滿足：
（這裏可以根據上面給出的公式自己推一推）
0≤R(p,q)≤min(S( p),S(q))
由於理想的冗餘性度量R很難得到。我們可以使用模式間的距離來近似冗餘度。該問題最終轉換爲發現最大化邊緣顯著性的k模式集問題。

《數據挖掘概念與技術》第七章高級模式挖掘

多層關聯

多維關聯

量化關聯

稀有模式和負模式

零不變性

基於約束的挖掘

高維空間和模式融合

模式壓縮和近似模式

模式壓縮

感知冗餘top-k模式

顯著性度量

冗餘性

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

2019美團機器學習/數據挖掘算法實習生筆試編程題修改矩陣

正確理解LSTM在keras API中的stateful參數

Keras中的LSTMcell 和LSTM 有什麼區別？

centos 安裝Deepo記錄

win10 mysql8.0 Navicat安裝和連接問題

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

《數據挖掘概念與技術》第七章 高級模式挖掘

多層關聯

多維關聯

量化關聯

稀有模式和負模式

零不變性

基於約束的挖掘

高維空間和模式融合

模式壓縮和近似模式

模式壓縮

感知冗餘top-k模式

顯著性度量

冗餘性

《數據挖掘概念與技術》第七章高級模式挖掘