圖挖掘、社會網絡分析和多關係數據挖掘

 

 

 

1.圖挖掘的主要目標

答:挖掘頻繁子結構是圖集合中非常基本的模式。頻繁子結構可以刻畫集合的特徵,區分不同的組羣體,對圖進行分類和聚類,構造圖索引和更方便地在圖數據庫中進行相似性搜索。

頻繁圖的基本定義:圖g的頂點集合用V(g)表示,邊集合用E(g)表示。標號函數L將頂點或邊映射到標號。圖g是另一個圖G的子圖,如果存在從圖g到圖G的子圖同構。給定一個標記的圖數據集D={G1,G2,G3,... ... ,Gn},圖g的支持度support(g)或者頻度frequency(g)定義爲g作爲子圖在D中出現的百分比或者次數。頻繁圖是支持度不小於最小支持度閾值min_sup的圖。

發現頻繁子結構的步驟通常有兩個:1、產生頻繁子結構的候選;2、檢查每個候選的頻度。大多數的頻繁子結構發現的研究都集中在第一步的優化,因爲第二步包含子圖同構檢驗,計算複雜度相當高。目前有兩種基本方法:Apriori方法和模式增長方法。Apriori方法頻繁子結構挖掘算法的頻繁圖搜索開始於小規模圖,按照自底向上的方式產生具有附加頂點、變或路徑的候選圖。圖規模的定義依賴於使用的算法。根據自底向上的策略的選擇,也產生了具體的算法,分爲頂點、邊、邊不相交路徑的具體實施策略。Apriori方法是基於圖的廣度優先搜索進行的。模式增長方法比Apriori方法更加靈活,可以根據實際需要採用圖的廣度優先搜索或者深度優先搜索。模式增長方法是選擇以邊爲增長策略的,也是自底向上增長策略進行,它對每次增長的邊用從增長原點到新增長邊的頂點序列記錄,然後對附加完成增長邊的子圖計算頻繁度,考察新增長的邊對頻繁度的影響程度,記錄頻度,選取頻度最高的增長邊加入頻繁子結構中,依次迭代此過程,直至頻度小於或等於邊界條件。

以上發現頻繁子結構的圖是無向圖的發現方法,對於有約束條件的圖需要加入約束條件,例如權值、有向等。

 

2.社會網絡分析

答:社會網絡是由圖來表示的異構多關係數據集。 社會網絡的研究主要集中在分析節點的度,即每個節點相關聯的邊數,節點對之間的距離,用最短路徑長度度量。網絡直徑是節點對之間的最大距離。其他節點到節點的距離包括節點對之間的平均距離和有效直徑。社會網絡是一種動態變化的網絡,可能呈現出稠化冪律、收縮直徑、重尾出度和入度分佈等特徵。

由於社會網絡組成的數據對象是異構的、多關係的和半結構化,所以鏈接挖掘是社會網絡數據挖掘的主要領域。考察節點之間關係的權重,然後按照權重進行降值排列是社會網絡某個時刻的數據挖掘分析。對兩個有先後關係的時刻進行分析,可以分析兩個時刻之間社會網絡的變化,得出關係變化的結果。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章