子圖模式

原創

2018-08-30 21:32

本文主要是對Xifeng Yan和Jiawei Han 發表於2002年的論文《gSpan:Graph-Based Substructure Pattern Mining》的解讀

子圖模式:基於圖的數據挖掘，挖掘圖數據庫中的頻繁子結構

Introduction

2000，Inokuchi結合Apriori算法和數學圖論知識，提出了AGM算法
2001，Kuramochi對AGM進行了修改並引入了一些剪枝策率，提出FSG算法
2002，Jiawei Han等人提出了gSpan算法，有效的挖掘出圖數據集中的頻繁連通子圖

注：
連通圖：無向圖G，圖中任意兩個節點都存在路徑可達，則圖G稱爲連通圖

Applications of Graph Patterns

節點表示個體，邊表示個體之間的親密屬性

頻繁子圖挖掘的核心是圖的同構測試

The Apriori-like algorithms suffer two additional cost:
(1)Costly subgraph isomorphism test
(2)Costly candidate generation

gSpan
不產生候選集，gSpan能夠在圖數據庫中建立一個新的字典排序並且爲每一個圖賦予一個最小DFS碼作爲該圖的規範標籤（無向連通圖）

大致過程：Each graph is assigned a unique minimum DFS code .Based on DFS codes,a hierarchical search tree is constructed.By pre-order traversal of the tree,gSpan discovers all frequent subgraphs with required support

圖的同構測試

Preliminary Concepts

圖同構：在兩圖的節點集合之間建立一個映射關係，G1兩頂點對應的邊和G2兩頂點對應的邊相同
f:保持了邊的連接性以及頂點標籤和邊標籤不變
（上面的五邊形和五角星是同構圖）

注：只能挖掘連同子圖

Lexicographic Ordering in Graphs

最右路徑在後面有詳細介紹

DFS Tree 一個節點都有一個前沿，可以有多個後沿
DFS code：按DFS的發現順序添加節點，與DFS中已存在的節點進行連接（按順序進行連接），先添加前沿，再添加後沿。

DFS Code標籤按照字典順序進行比較得到Minimum DFS Code

Example

添加G_i中互不相同的標籤元組作爲前向擴張，計算每條邊的支持度，選出頻繁一邊圖

生成候選子圖C₁,C₂這裏涉及到最優路徑擴展，在下節詳細描述。

最終結果

s₄、s₅是非頻繁的
s₉同構於s₈是非頻繁的

最右路徑擴展

gSpan##實驗

gSpan是一個頻繁子圖挖掘算法，這個程序使用Python實現了gSpan算法。
無向圖頻繁子圖挖掘
數據集爲論文中的Chemical Compound Dataset
部分實驗結果：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

泛統計理論初探——模型泛化能力增強技巧

數據挖掘-機器學習模型泛化增強技巧機器學習模型泛化能力增強技巧簡介在之前的文章中，我們已經介紹了三種提高模型泛化能力的方法，即前一篇文章介紹的L1正則化、L2正則化、DropOut方法。在本文中，我們將會從數據角度、模型

喷火龙与水箭龟

2020-07-08 04:17:12

泛統計理論初探——過擬合與欠擬合探討

數據挖掘-過擬合與欠擬合的簡介過擬合與欠擬合簡介在我們數據挖掘的學習中，經常會出現過擬合和欠擬合的情況。比如使用BP神經網絡進行預測的時候，可能會造成數據的過擬合；使用簡單的一元線性迴歸的進行預測的時候，可能會造成數據的欠擬合

喷火龙与水箭龟

2020-07-08 04:17:12

Mysql疑難雜症收集

Mysql疑難雜症收集 By Eagoo 　　　　一、可疑問題：　　　　　　　　mysql>show processlist; 　　　　

单线程的娃

2020-07-08 12:00:56

[深度之眼]LeNet/AlexNet/VGGNet/InceptionNet/ResNet實現fashion_mnist分類

本文使用五種經典卷積神經網絡，實現fashion_mnist十分類問題，並對比準確度和運行時間LeNet5 原理AlexNet8 原理VGGNet16 原理InceptionNet10 原理ResNet18 原理用到的包： im

2020-07-08 11:53:37

最近鄰搜索神器——一文讀懂局部敏感哈希LSH原理

什麼是LSH? LSH主要用來解決高維空間中點的近似最近鄰搜索問題,即Approximate Nearest Neighbor(ANN)。在實際的應用中我們所面對的數據是海量的,並且有着很高的維度。在對數據的各種操作中,查詢操作

2020-07-08 05:33:08

[B11]數據挖掘實戰：客戶流失預警系統

*這是一個數據挖掘的小項目，將從以下幾個方面來分析：數據清洗與格式轉換探索性數據分析特徵篩選特徵工程建立多種基礎模型，嘗試多種算法模型調參/提升模型評估測試/結論彙報分析與準備數據數據簡介 State:州名

学Python的莫小白

2020-07-08 05:05:48

數據調度平臺系統二大種類及其實現方法與流程

什麼是調度系統調度系統，更確切地說，作業調度系統（Job Scheduler）或者說工作流調度系統（workflow Scheduler）是任何一個稍微有點規模，不是簡單玩玩的大數據開發平臺都必不可少的重要組成部分。除了Crontab

taskctl调度工具

2020-07-08 04:22:11

泛統計理論初探——常見正則化技巧簡介

數據挖掘-正則化方法簡介常見正則化方法介紹正則化方法是數據挖掘或者神經網絡應用裏常見的一種方法，該類方法其實是一種對於過擬合進行優化的思路，即當模型在訓練集和測試集的預測準確率差距非常大的時候，比如模型在訓練集預測準確率

喷火龙与水箭龟

2020-07-08 04:17:13

泛統計理論初探——探討梯度下降學習率優化技巧

數據挖掘-梯度下降學習率優化簡介學習率優化方法簡介本文準備介紹的主要內容是在梯度下降方法中，對於學習速率這個超參數的優化思路。在之前的三篇文章裏，分別介紹了對梯度本身的優化的常見策略和技巧，但是沒有對學習速率的優化進行介

喷火龙与水箭龟

2020-07-08 04:17:13

泛統計理論初探——DBSCAN方法簡介

數據挖掘-聚類算法之DBSCAN DBSCAN算法簡介在之前的文章裏，我們探討了最常見的一種聚類算法，即Kmeans算法，在本文中，我們將簡要介紹DBSCAN算法，同時將比較DBSCAN方法相對於Kmeans的優缺點。 DBSC

喷火龙与水箭龟

2020-07-08 04:17:12

泛統計理論初探——梯度下降新方法簡介

數據挖掘-梯度下降新方法簡介梯度下降新方法簡介在之前的兩篇文章裏，我們介紹了梯度下降方法的歷史和演變，從批量梯度下降、隨機梯度下降方法到後續的新方法如動量加速法、AdaGrad、RMSprop、Adadelta方法等，本

喷火龙与水箭龟

2020-07-08 04:17:12

泛統計理論初探——均值漂移算法初探

數據挖掘-均值漂移聚類算法均值漂移聚類算法簡介本文主要是介紹均值漂移聚類算法，又稱爲Mean-Shift-Cluster，該算法屬於無監督學習的聚類方法。主要從算法的使用場景、步驟、核心思路等角度去介紹算法。之前其實也介紹過一

喷火龙与水箭龟

2020-07-08 04:17:12

泛統計理論初探——再談梯度下降方法優化

數據挖掘-再談梯度下降優化方法再談梯度下降優化方法在上一篇文章，我們簡單的介紹了梯度下降方法和一些簡單的優化方法，比如隨機梯度下降方法可以對原有的梯度下降方法進行優化和加速，在這個基礎上又有小批量梯度下降方法和動量加速梯

喷火龙与水箭龟

2020-07-08 04:17:12

etl數據調度平臺系統類別的實現方法及工作流程

什麼是調度系統調度系統，更確切地說，作業調度系統（Job Scheduler）或者說工作流調度系統（workflow Scheduler）是任何一個稍微有點規模，不是簡單玩玩的大數據開發平臺都必不可少的重要組成部分。除了Crontab

taskctl调度工具

2020-07-08 03:42:10

銀行核心系統：批量作業調度管理軟件平臺taskct

更多對etl調度工具taskctl的使用問題解析關注公衆號"taskctl"(ID:gh_79ababc7910b)裏面有詳細的使用手冊，歡迎過來查閱哦~ 技術討論羣：75273038 大數據開發平臺的核心組件之一：作業調度系統作業

taskctl调度工具

2020-07-08 03:42:10

24小時熱門文章

最新文章

最新評論文章