圖挖掘的基本概述 以後寫文獻綜述

圖挖掘基本概念
近年來,圖挖掘作爲,數據挖掘的重要組成部分引起了社會各界的極大關注。圖挖掘(Graph Mining)是指利用圖模型從海量數據中發現和提起有用知識和信息的過程。通過圖挖掘所獲取的知識和信息已廣泛應用於各種領域,如商務管理、市場分析、生產控制、科學探索和工程設計;

關於圖編輯距離GED的總結,來源於A Partition-Based Approach to Structure Search 2013文後的總結:

在討論圖相似度時,我們經常用最大公共子圖(MCS)[25]來進行測量。【25】中基於標籤圖定義了所謂的“圖距離”:
在這裏插入圖片描述
這種測度防止那些在頂點個數上太大或者太小的圖成爲候選圖,類似於圖編輯距離的下界GED>=倆個圖頂點的差絕對值+倆個圖邊的差的絕對值。但是,這種測度在現實中很難應用

通過下面的例子,來理解爲什麼GED比最大公共子圖的測定的相似度更加準確。
在這裏插入圖片描述
上圖中左邊倆個圖作爲數據圖g1 g2,右邊的圖作爲查詢圖q.根據公共子圖,DIST(g1,q)=8+8-26=4,DIST(g2,q)=8+8-26=4,因此g1和g2到q的距離是相等的。但是,從直觀上看並不是這樣,因爲公共子圖的測度並沒有考慮到基於公共子圖的結構的差異。也就是說,如示例所示,所謂的圖形距離無法區分差異程度。相反的是,圖編輯距離能夠捕捉到這種不同。GED(g1,q)=2,GED(g2,q)=5.因此,GED具有比上述圖距離更加豐富的語義來進行圖的相似度搜索。即,通過公共子圖的測度,左邊倆個圖和右邊的圖到右邊圖的距離相等,是相似的;而GED可以測出這種不相似之處。

在最大公共子圖MCS的基礎上,提出了邊放鬆距離edge relaxiation distance[7 12 14 17],
在這裏插入圖片描述
邊放鬆距離這個定義有個缺點:僅僅從查詢圖的角度參考,沒有考慮到數據圖。解釋如下:

下面考慮到下面的情形:一個查詢圖q,一個比q大很多的數據圖g,並且MCS(g,q)=q.可以很直接地根據上述公式驗證DIST(q,g)=|Eq|-|Eq|=0.從這個角度來講,因爲倆個圖之間的距離僅僅是0,即使不是完全相同,那麼也是非常相似的。但是,這個解釋不正確,因爲g是比q大很多的圖。因此,邊的放鬆距離不能作爲一個好的測度。即,邊放鬆距離完全忽略了數據圖的各種信息,只考慮了查詢圖的信息。

還有一種測度叫做基於最大聯通公共子圖(MCCS)度量方法。
在這裏插入圖片描述
上面倆種分子的結構相似,功能也相似[22]。如果使用基於MCCS的最大聯通公共子圖的方法,計算結果爲DIST(g1,g2)=14-6,但是使用圖編輯距離GED(g1,g2)=1(O變爲S)

另外還有一種度量方案:邊的編輯距離。它定義爲將g轉變爲q所添加的最小邊的數量。它是讓圖編輯距離GED有更加嚴格的限制。在匹配圖時候,只有倆個圖之間頂點完全匹配時纔可以用這種測量。因此,那些沒有完全相同頂點的標籤的圖就被丟棄了。很顯然,這個定義的條件太苛刻。它的語義也沒有GED豐富。

總結:
我們注意到,GED是具有優雅屬性的最通用度量之一,可以將其應用於任何類型的圖,以精確捕獲頂點和邊緣上的結構差異。 GED可用於糾錯圖形匹配,尤其是在模式分析中。GED和其他的度量標準相比,可以表示豐富的語義(結構相似),感知整體結構的大小。
在這裏插入圖片描述
化學數據被用來舉例說明本文中的思想,並證明我們解決方案的有效性。我們在圖C.3中提供了另一個示例,以展示基於GED的相似性度量在識別化學異構體中的有用性。三嗪的分子式爲C3H3N3,存在三個異構體,C和N原子位於不同的位置。基於GED的相似性度量可以輕鬆發現異構體之間的這種重要關係,儘管這些異構體的合成不是通過直接的相互轉化,即將C更新爲N,反之亦然。相反,這些異構體只共享一小部分共同的子圖,因此很難基於MCCS的相似性

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章