《數據挖掘概念與技術》第七章 高級模式挖掘

頻繁模式挖掘是數據挖掘中頻繁項挖掘的基本目標。
另外包括閉頻繁項模式極大頻繁項模式

除了挖掘基本的頻繁項集和關聯外,還可以挖掘高級的模式形式,本章中分別介紹了:

  • 多層關聯
  • 多維關聯
  • 量化關聯規則
  • 稀有模式
  • 負模式
  • 高維模式
  • 模式壓縮和近似模式

多層關聯

多層關聯涉及多個抽象層中的數據。例如戴爾電腦可以抽象到電腦,而索尼耳機可以抽象到耳機。這些可以使用多個最小支持度閾值挖掘。
對於多層關聯模式,閾值的選擇:
可以使用相同的閾值來挖掘關聯模式;也可以逐層降低來挖掘關聯模式,避免丟掉更低層中的關聯模式包含的信息;可以使用所有層中最小的閾值。

多層關聯中的副作用是,由於項之間的“祖先”關係,可能產生一些多個抽象層上的冗餘規則。例如

買電腦=>買惠普打印機 (支持度8%,置信度70%) ——————(1.1)
買戴爾電腦=>買惠普打印機(支持度2%,置信度72%) ——————(1.2)

目前挖掘出了規則(1.1)和(1.2),那麼這兩個規則中,後一個子規則是有用的嗎?
其中,電腦是戴爾電腦的“祖先”,規則(1.1)是規則(1.2)的“祖先”。
這裏,給出一個冗餘性定義:

規則R1是規則R2的祖先,如果R1能夠通過將R2中的項用它在概念分層中的祖先替換得到,則R2冗餘。
根據這個定義,一個規則被認爲是冗餘的,如果根據規則的祖先,它的支持度和置信度都接近於“期望值”。

在該例子中,規則(1.1)具有70%置信度和8%支持度,並且大約1/4的電腦是戴爾電腦(1/4爲假設),那麼我們可以期望規則(1.2)具有大約70%的置信度和2%(8%*1/4)的支持度,如果確實是這樣,那麼規則(1.2)不是有趣的,它不提供任何附加的信息,並且一般性不如它的祖先。

多維關聯

多維關聯包含多個維。挖掘這種關聯的技術因如何處理重複謂詞而異。
如規則
age(X,“20,…,29”) ^ occupation(X,“student”) => buy(X,“laptop”)
其中,age、occupation、buy均爲謂詞,涉及兩個或多個維或謂詞的關聯規則稱爲多維關聯規則。多維中維度不同,即具有不重複謂詞,稱爲維間關聯規則;具有重複謂詞,則稱爲混合維關聯規則

方法:

  1. 使用預先定義的概念分層對量化屬性離散化。使用量化屬性的靜態離散化挖掘多維關聯規則
    年齡離散化爲區間(20-30,30-40,…)
  2. 根據數據分佈將量化屬性離散化或聚類到“箱”。

在多維關聯中,我們搜索頻繁謂詞集。不是搜索頻繁項集。k-謂詞集是包含k個合取謂詞的集合。{age,occupation,buy}是一個3-謂詞集。

量化關聯

量化關聯規則設計量化屬性。
離散化、聚類和揭示異常行爲的統計分析可以與模式挖掘過程集成在一起。

  1. 基於數據立方體挖掘
    將變換後的多維數據構造數據立方體,進行數據挖掘。
  2. 基於聚類
    自頂向下方法。

對於每個量化維,可以使用一種標準的聚類算法,發現該維上滿足最小支持的閾值的簇。對於每個這樣的簇,我們考察該簇與另一維的一個簇或標稱屬性值組合生成的二維空間,看這一組合是否滿足最小支持度閾值。如果滿足,繼續考察更高維空間。在該過程中,我們可以使用先驗剪枝 ,如果在任一點,組合的支持度不滿足最小支持度,則它的進一步劃分或與其他維組合也都不滿足最小支持度。

這裏對於劃分不滿足明白,但對於與其他維組合不滿足不清楚。
  1. 使用統計學理論
    即結果與現實經驗不符。

稀有模式和負模式

稀有模式是很少出現但特別有趣。負模式是其成員呈現負相關行爲的模式。
應該小心定義負模式,考慮零不變性。
稀有模式和負模式可能凸顯數據的異常行爲

零不變性

即值可能錯誤地被零事務影響,其中零事務是不包含被考察項集的任何項的事務。
這裏有一個很有趣的例子。
當考慮事務的總量不同時,會有不一樣的情況,定義7.3同理可證。

在這裏插入圖片描述

基於約束的挖掘

基於約束的挖掘策略可以用來引導挖掘過程,挖掘與用戶直觀一致或滿足某些約束的模式,許多用戶指定的約束都可以推進到挖掘過程中。
約束分爲模式剪枝約束數據剪枝約束
這些約束的性質包括單調性、反單調性、簡潔性、可變性、和數據反單調性。

其中,單調性基於滿足性,而反單調性基於違反條件。如果某個單元違反某條件,則它的任何超集也將違反該條件,則稱爲反單調。
滿足反單調的有:sum(S)<=v.
由於當前單元的和已經大於v,那麼它的任何超集都無法滿足小於等於v的條件。
單調的有:count(I)>10.
集合中的數量大於10,則進一步添加更多的商品到集合中會增加數量,也滿足條件。
簡潔性:是指該約束的集合可枚舉。
可轉變的約束:
約束avg(I.piece)<50.即價格的平均值不超過50,該約束既不是單調也不是反單調,但如果事務中的項以單價的遞增順序添加,則該約束就變成反單調的。

高維空間和模式融合

高維空間挖掘,爲挖掘維數很大但元組很少的數據集的基於行枚舉的模式增長方法,以及通過模式融合方法挖掘巨型模式。
(這個沒太理解)

模式壓縮和近似模式

爲了減少挖掘返回的模式數量,我們可以代之以挖掘壓縮模式或近似模式。
壓縮模式可以通過基於聚類概念定義代表模式來挖掘,而近似模式可以通過提取感知冗餘的top-k模式來挖掘。

模式壓縮

通過在聚類簇中找到代表模式進行模式壓縮。即模式壓縮可以通過模式聚類實現。
閉模式是頻繁模式集的無損壓縮,而極大模式是有損壓縮。
但使用閉項集和極大項集進行壓縮的缺點是:
當數據集中沒有閉項集,我們選擇極大項集來代表該數據的壓縮版本。但在之前我們已經知道,極大項集並不攜帶各項集的支持度信息,我們將失去整個支持度信息。
於是,我們提出,由於閉項集是原頻繁模式集的無損壓縮,我們在閉模式集合上發現代表模式

這裏提出,閉模式之間的距離度量計算
設P1和P2是兩個閉模式,他們的支持事務集分別爲T(P1)和T(P2)。則P1和P2的模式距離爲:
Pat_Dist(P1,P2)=1- (|T(P1)∩T(P2)|) / (|T(P1)∪T(P2)|)

模式距離是一種定義在事務集合上的有效距離度量。包含了模式的支持度信息。

例子:
假設P1、P2是兩個模式,使得T(P1)={t1,t2,t3,t4,t5},T(P2)={t1,t2,t3,t4,t6},其中ti是數據庫中的事務。
那麼P1和P2的距離爲:
Pat_Dist(p1,p2)=1-|{t1,t2,t3,t4}|/|{t1,t2,t3,t4,t5,t6}| = 1 - 4/6 = 1/3

在這裏插入圖片描述
即:給定一個事務數據庫,最小支持度min_sup,和聚類質量度量o,模式壓縮問題及時找到一個代表模式的集合R,使得每個頻繁模式P,存在一個代表模式Pr屬於R,它覆蓋P,並且|R|是最小化的。

感知冗餘top-k模式

k個代表模式的小集合,它們不僅具有高顯著性,而且相互之間低冗餘。

在下圖中,顯著性用灰度表示,而球之間的距離越近,代表冗餘度越高。假定現在要找的代表模式個數爲3,即k=3.
圖中箭頭用來指示所選的模式,b爲感知冗餘的top-k模式選擇的模式,c爲傳統top-k模式選擇的模式,d爲k-概括模式選擇的模式。
在這裏插入圖片描述
很明顯的看出,c中模式選擇僅依賴顯著性,從集合中選出顯著性最高的三個模式,而不考慮冗餘。
d中模式選擇僅依賴非冗餘性選擇模式,先將集合劃分爲3簇,並發現最具代表性的模式是最靠近每個簇“中心”的模式。
而b中,在顯著性和相關性之間進行平衡。

那麼,顯著性和冗餘性該如何度量呢?

顯著性度量

顯著性度量S是一個函數,它把模式p∈P映射到一個實數值,使得S(p)是模式p的興趣度(或有用性)。該度量可以是主觀的也可以是客觀的。S(p,q)是模式p和q的聯合顯著性,S(p|q)=S(p,q)-S(q)是給定q、p的相對顯著性。
這裏應該注意S(p,q)是兩個模式的共同顯著性。

冗餘性

給定顯著性度量S,兩個模式p和q之間的冗餘性R定義爲R(p,q)=S§+S(q)-S(p,q)。
即有S(p|q) = S ( p) -R(p,q)。

假定兩個模式的聯合顯著性不小於任何一個模式的顯著性,並且不超過兩個模式的顯著性之和。也就是說兩個模式之間的冗餘應該滿足:
(這裏可以根據上面給出的公式自己推一推)
0≤R(p,q)≤min(S( p),S(q))
由於理想的冗餘性度量R很難得到。我們可以使用模式間的距離來近似冗餘度。該問題最終轉換爲發現最大化邊緣顯著性的k模式集問題。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章