知識圖譜融合與知識圖譜對齊Summary

兩個(或多個)知識圖譜的融合是怎麼實現的呢?所謂融合,可以理解存在以下三種操作:1)實體詞在新的上下級位置上進行插入;2)不同圖譜中的同義實體詞完成合並;3)三元組關係隨着實體詞位置變化而動態調整.

1. 知識融合的常見問題

數據質量問題:命名模糊,數據輸入錯誤,數據都市,數據格式不一致,縮寫問題
數據規模問題:數據量過大,或數據量過小。數據種類多樣性。在知識圖譜對齊的時候,我們不僅通過實體名匹配,也會使用多種關係,鏈接,圖譜層次。

2. 知識融合(對齊)的常見步驟

  1. 數據預處理:1) 語法正規化 2) 數據正規化
  2. 記錄鏈接:把實體通過相似度進行連接
  3. 相似度計算:分成屬性相似度和實體相似度。其中,屬性相似度可以通過編輯距離(Levenstein,Wagner and Fisher, edit distance with Afine Gaps)集合相似度(Jaccard, Dice)基於向量的相似度(Cosine,TFIDF)。實體相似度可通過聚合,聚類(Canoy+K-means此法不用指定K,可分爲層次聚類,相關性聚類)
  4. 分塊(blocking):從所有三元組中找到潛在的匹配並分到一塊中,減少運算量。
  5. 負載均衡:保證所有的分塊中實體書目相當,做Map-reduce。
  6. 結果評估

3. 知識圖譜對齊的常見方法

3.1 傳統的基於概率模型的方法

考慮各個實體的屬性,不考慮實體間的關係,通過評估各種相似度來對齊實體,本質上爲分類問題。

3.2 機器學習方法

  1. 通過屬性,比較實體或屬性向量,進而判斷實體匹配與否
  2. 聚類方法
  3. 主動學習:通過機器與人的交互學習(類似的有ActiveAtlas系統)

4. 近年來在知識圖譜方面的突破

4.1 小規模知識圖譜的融合

一般來講,小規模的知識圖譜融合由人工完成爲主,多以WordNet爲參照做相似度計算求得對齊

  1. First-world-first-sence策略:把未見到的詞連接到與其詞性相同,同一集合的詞上。但是這種方法對於領域圖譜並不適用。
  2. VCU:使用相似度計算如果相似度大於閾值,認爲相同,可以對齊。這種方法簡單有效。但是未考慮到去除噪聲,也未使用KG的結構。
  3. TALN:使用BabelNet更多的假如句法,詞性,短語等信息
  4. MSeirku:加入了消歧機制。
    所有這些方法都離不開簡單的相似度排序方法

參考論文:
1. VCU at Semeval-2016 Task 14: Evaluating similarity measures for semantic taxonomy enrichment
2. TALN at SemEval-2016 Task 14: Semantic Taxonomy Enrichment Via Sense-Based Embeddings
3. MSejrKu at SemEval-2016 Task 14: Taxonomy Enrichment by Evidence Ranking

4.2 中等規模的KG Alignment

當知識圖譜規模小的時候,多使用詞法句法信息,規模變大後可以使用圖譜的結構特徵信息

  1. Enriching Taxonomies with Functional Domain Knowledge: 使用了圖語義特徵,圖中心度特徵。在語義理解上提升許多
  2. Improvement on 1:使用了模糊聚類算法,發現並概念化新的實體,找到實體在圖中的位置。

參考論文:
1. Enriching Taxonomies With Functional Domain Knowledge
2. Using Taxonomy Tree to Generalize a Fuzzy Thematic Cluster

4.3 大規模的KG Alignment

本質上是不同的領域的實體對齊,形成與以上的鏈接。使用了基於知識表示的實體對齊。可以使用上下級的結構特徵,和語義特徵。

  1. Entity Alignment Between KGs using attribute embedding: 不同於TransE,PTransE等KGE模型關注的是學習實體和路徑。本論文關注的是實體屬性。可分爲三個部分:謂詞對齊,知識表示(embedding)和實體對齊。這類對齊要求把兩個KG映射到一個向量空間中。使用謂詞對齊模塊查找相似的謂詞。並使用統一命名。相當於使用謂詞匹配反推實體對齊
  2. Iterative entity Alignment via joint KE: Background(大多知識圖譜對齊依賴的是外部信息如Wikipedia) 本文提出一種基於聯合知識圖譜嵌入的方法。分爲三部分:1)知識表示-TransE,2)聯合表示-將多個KG映射到同一空間,使用機器翻譯模型Seq2Seq,線性變換函數,參數共享,3)知識對齊迭代。

參考論文:(前三個基於字符相似度,後三個基於知識圖嵌入)
1. RDF-AI: an Architecture for RDF Datasets Matching, Fusion and Interlink
2. Limes: a time-efficient approach for large-scale link discovery on the web of data
3. Holistic Entity Matching Across Knowledge Graphs
4. Entity Alignment between Knowledge Graphs Using Attribute Embeddings
5. Iterative Entity Alignment via Joint Knowledge Embeddings
6. Collective Embedding-based Entity Alignment via Adaptive Features

5. 如何識別和擴展圖譜中的同義詞

對知識圖譜中的同義不同形的詞進行合併,可以理解爲一種知識對齊。由於不同形的詞長的不一樣,所以不能簡單地用詞相似度來合併,需要考慮實體的語義和結構等特徵。

目前工業界的辦法:

  1. 去結構化數據裏面尋找同義詞對,如各種百科,權威知識圖譜等
  2. 對非結構化數據做語義分析,找到同義詞對。

本文着重討論一下在非結構化數據集上,常見的挖掘思路有哪些。一般來說,這一類工作分爲以下幾個步驟:
1) 從文本中提取mention詞,簡單的做法可以直接使用分詞,選取一些特定分詞結果做同義詞挖掘。如果需要考慮語料中可能出現的新詞或者不同語言表述,則需要配合Pattern挖掘、NER或名詞短語抽取等方式獲取候選詞。
2) 準備好已有的同義詞表作爲種子數據
3) 獲取所有種子詞和候選詞的特徵,通常該任務的特徵會從兩個角度考慮,分別是local context和global context,通俗的講就是局部特徵和全局特徵,前者着重於詞本身,常見字級別特徵、詞級別特徵等;後者則是考慮目標詞在數據集中的分佈特徵或者詞所在句子、段落的語義特徵
4) 根據各自實際工作中數據集的特點,已有的paper從不同的角度進行建模,比如使用分佈特徵與pattern特徵交叉驗證,或是隻考慮改進詞本身的預訓練向量,或是重點考慮候選詞與目標同義詞集合的分佈差異。此處在下一節具體展開討論。

參考論文:
1. Multi-Distribution Characteristics Based Chinese Entity Synonym Extraction from The Web (使用模板配對)
2. Hierarchical Multi-Task Word Embedding Learning for Synonym Prediction (使用詞向量方法)
3. SurfCon: Synonym Discovery on Privacy-Aware Clinical Data
4. Automatic Synonym Discovery with Knowledge Bases
5. Mining Entity Synonyms with Efficient Neural Set Generation

6. 擴展閱讀:Automating the expansion of a knowledge graph

在圖譜的開發和應用上,有兩個限制知識圖譜的因素,圖譜的規模侷限性和新詞彙的跟新延遲性。本文介紹了一種知識圖譜的自動擴充方法,用以及時跟進新出現的詞彙,把新詞加入到知識圖譜中。也可以理解成是對知識圖譜的版本管理。

本文把新加入的詞分爲新詞新意和舊詞新意。通過爬取社交媒體的數據獲取新詞。在通過實體抽取等方法抽取新詞的解釋,關係(關係抽取)等知識。生成一個知識子圖,再把子圖融合到主知識圖譜中。本文使用了ConceptNet作爲數據集進行了驗證。

在模型選取上,本文使用了Multilingual BERT作爲模型處理多語言的語義文本,使模型無語言依賴性。這樣,支持從多語網站爬取對新詞的信息。模型包括三個部分:爬蟲,語義分析器,知識挖掘模型。

實驗部分的評估方法:

  1. 使用了對知識圖譜擴展後的具體例子,說明新的KG中包含了新詞。
  2. 對新KG做數據分析,給出metadata,證明新KG中有更多的實體出現。
  3. 對語義分析,給出一種消融實驗,驗證每個模塊的作用。

小結

文章分別介紹了在不同圖譜規模下,不同的圖譜融合算法,我們可以根據當下的數據情況進行選擇。當圖譜規模較小時,我們還是推薦上文介紹的小規模圖譜融合的方法,可解釋性高,算法簡單,同時可達到不錯的效果。當圖譜規模非常大時,圖譜自身就是一個可解釋性非常高的模型,此時採用層次聚類或知識表示抽象化圖譜結構,才能達到較好的效果。在實際應用中,需要根據不同的業務建立不同的圖譜,散落在各業務線的數據,永遠只是服務於自身業務,並不能發現業務之間的潛在聯繫。爲了實現跨業務語義解析和推薦,圖譜融合是關鍵,需要根據不同業務的特點選擇不同的融合算法,複雜不一定是最好。從以上研究中可以看到,如何豐富並更好的抽象新實體的外部語義環境和其在圖譜中的關聯結構,依然是今後研究的重點。

Ref:
多知識圖譜的融合算法探索
如何擴充知識圖譜中的同義詞

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章