知識圖譜的構建與質量評估

本文由知識圖譜的結構構建,實體抽取,實體關係和屬性抽取,知識圖譜評估,知識圖譜精煉六個部分組成。

一、知識圖譜構建

知識圖譜在目前知識體系中的三種組織分類:
  1. Ontology:樹狀結構,關係是嚴格的IsA關係,便於知識推理,但沒法表達出概念和關係的多樣性
  2. Taxonomy:樹狀結構,關係包含一般的上位詞-下位詞關係(Hypernym-Hyponym),關係的豐富影響了知識推理的難度,易造成歧義。Taxonomy也是我們當前最常用的知識圖譜分類方法。
  3. Folksonomy:非層級的結構,全部節點以標籤分類,除了靈活以外,語義的精確性、推理能力也全都喪失了。
Taxonomy知識圖譜的構建

包含了幾個子任務:下位詞獲取(hyponym acquisition)、上位詞預測(hypernym prediction)、結構歸納(taxonomy induction)。

一般來說,對於上/下位詞的獲取,我們可以通過兩種方法從文檔中提取知識。第一種是基於模式匹配的方法,使用模板對文本中的知識進行匹配,如使用正則表達式。第二種是使用分佈式(distributional)的方法,使用詞向量,句子向量對關係進行預測,而不是抽取,先獲取種子數據,再 使用無監督或有監督模型獲取更多的候選 Is-A 關係對。
參考論文:
1. Revisiting Taxonomy Induction over Wikipedia
2. Semantic Class Learning from the Web with Hyponym Pattern Linkage Graphs

對於結構歸納任務,前面介紹了從文本中抽取 Is-A 關係對,最後一步的工作就是如何把這些關係對數據做合併,構成完整的圖譜。一般通過增量學習的方法,初始化一個 seed taxonomy,然後將新的 Is-A 數據往圖上補充。而這個方向的研究就在於使用何種評價指標作爲插入新數據的依據。

二、實體抽取

實體(短語)抽取指從文本中提取出目標實體的過程。早期使用基於規則的辦法,用POS抽取文本中的短語作爲實體。但是這種方法需要大量的人工標註,費時費力。現在主要使用了兩種方式,無監督和弱監督方法,減少人工標註的工作。

基於無監督的實體抽取

使用頻率模式與統計方法,基於文本挖掘來挖掘可能是實體的短語。數據無標籤,通過計算短語的得分判斷是否可以成爲一個實體。用到的評分系統如計算凝固度和左右臨字信息熵。

2014年韓家煒團隊的學生Ahmed El-Kishky提出一種基於頻繁模式挖掘和統計的方法TopMine,無監督的對語料進行Phrase Mining。這項工作的主要目的是對文本進行主題挖掘,在這篇論文中將主題挖掘分爲兩個步驟,第一步根據Phrase Mining抽取的結果對文本進行分割,第二部根據分割後的文本約束Topic模型。

參考論文:
1. Scalable Topical Phrase Mining from Text Corpora (TopMine)
2. How to incorporate phrases into Word2Vec – a text mining approach

弱/遠程監督抽取方法

SegPhrase:
韓教授的學生劉佳硉認爲TopMine的方法是完全無監督的,那麼是不是選用一些少量的帶標籤的數據,可能會在很大程度上提高抽取結果。其認爲高質量的短語是可以優化分詞結果的,而高質量的分詞結果也可以優化phrase抽取的結果,將分詞和高質量短語相結合。使用了短語切分的方式,修正短語中無用的部分。

原始計算頻率時,並沒有考慮真正分詞的結果,只是統計詞出現的頻率,例如support vector machine出現了在預料中出現了100次,但是根據分詞結果進行修正(rectified)後,其只出現了80次,同樣的vector machine修正後只出現了6次。那麼vector machine不算是一個phrase。

AutoPhrase:
遠程監督學習定義:它既不是單純的傳統意義上的監督語料,當然也不是無監督。它是一種用知識圖譜去對齊樸素文本的標註方法。使用知識圖譜對齊文本數據中的實體,通過知識圖譜中已有的實體信息從文本中提取對應的知識(一般是實體關係)。不過由於文本中的實體與知識圖譜中的實體不存在語義對齊,所以在遠程監督模型中負採樣很重要。

2017年韓教授的學生商靜波提出一種遠程監督的方法進行Phrase Mining,AutoPhrase使用wiki或Freebase等數據構建高質量詞典,代替SegPhrase人工打標籤的過程。其在技術上以下兩個創新點。

Robust Positive-Only Distant Training:使用wiki和freebase作爲顯眼數據,根據知識庫中的相關數據構建Positive Phrases,根據領域內的文本生成Negative Phrases,構建分類器後根據預測的結果減少負標籤帶來的噪音問題。

POS-Guided Phrasal Segmentation:使用POS詞性標註的結果,引導短語分詞,利用POS的淺層句法分析的結果優化Phrase boundaries。

參考論文:
1. Mining Quality Phrases from Massive Text Corpora
2. Automated Phrase Mining from Massive Text Corpora

三、實體關係抽取

實體關係抽取是指從文本中找到兩個實體(上下位詞)並抽取其中關係的過程。

基於遠程監督模型的方法

優點:利用遠監督思想得到訓練數據,可大大減輕標註工作;關係抽取準確率基本在85%以上。
缺點:實體識別的錯誤會傳遞到關係抽取過程中;同時,分開抽取,也沒有充分的利用實體信息;負樣本的選取也是決定着模型好壞。

參考論文:
1. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks
2. Deep Residual Learning for Weakly-Supervised Relation Extraction
3. Classifying Relations by Ranking with Convolutional Neural Networks
4. RESIDE: Improving Distantly-Supervised Neural Relation Extraction using Side Information

小結:word embedding + position embedding 成爲輸入層的標配。Attention和多實例學習的作用明顯。圖神經網絡兼顧了語義和句法結構。

實體關係聯合抽取法

聯合抽取模型的設計目的是希望在進行命名實體識別的同時,讓實體信息輔助關係抽取,從而實現兩個任務一體化。對於實體間關係的端到端(聯合)提取,現有的模型都是基於特徵的系統。這些模型包括結構化預測、整數線性規劃、卡片金字塔解析和全球概率圖形模型。其中,結構化預測方法在幾個語料的表現較好。

優點:實體和關係抽取工作同時進行,關係抽取過程會充分利用實體信息。
缺點:模型複雜;基於英文公共數據集,最好模型的準確率只有64%,即只要實體識別準確率在80以上,那麼遠監督的準確率就會高於聯合抽取模型。

參考論文:
1. End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures
2. Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme
3. Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism
4. Adversarial training for multi-context joint entity and relation extraction
5. A Hierarchical Framework for Relation Extraction with Reinforcement Learning

聯合抽取模型總結:模型複雜度高,時間空間代價較大。所有模型都致力於解決一對多的問題(重疊關係),並充分利用實體信息,不過效果較遠監督模型有一定差距。

四、屬性抽取

實際上,屬性抽取較之關係抽取的難點在於,除了要識別實體的屬性名還要識別實體的屬性值,而屬性值結構也是不確定的,因此大多研究都是基於規則進行抽取。

當然也有研究使用了一些機器學習模型對文本中的屬性名進行序列標註,但這種方法的侷限在於,實體屬性實際上是非常豐富的,但模型除了需要標註數據,也無法cover多種多樣的屬性。

參考論文:
1. ReNoun-Fact Extraction for Nominal Attributes
2. MetaPAD-Meta Pattern Discovery from Massive Text Corpora

五、實體定義

通過對文本內容的抽取,爲實體篩選出描述性的句子或短語,就是實體定義的過程。一般來講只要能針對實體生成正確描述性的句子即可,暫時對生成句子的質量不做評估。

任務:通過無監督學習抽取信息,包括生成候選集,擴展候選集,候選集打分和排序。
對於生成和擴展候選集,一般是基於規則的無監督方法,如Bootstrap,NER。
對於候選集打分,一般有TF-IDF,聚類,TruePIE,左右熵等方法。

參考論文:
1. Maps of random walks on complex networks reveal community structure
2. The map equation:https://www.mapequation.org/
3. Parameter-free Sentence Embedding via Orthogonal Basis
4. TruePIE: Discovering Reliable Patterns in Pattern-Based Information Extraction

六、知識圖譜的質量評估

構建好的知識圖譜可能會有一些錯誤,主要集中在三元組的:

  1. 上下位問題:使圖譜中出現環狀結構,一般來說,知識圖譜是樹狀結構
  2. 屬性問題:實體屬性出現偏差
  3. 邏輯問題,指關係間的邏輯不符合客觀事實

所以,需要對知識圖譜的質量進行評估。根據SOTA,我們把質量評估問題轉化爲知識圖譜精煉問題(refinement)。其中包括:知識圖譜補全和知識圖譜錯誤檢測。
在這裏插入圖片描述
在這裏插入圖片描述

參考論文:
1. Knowledge graph reginement: A survey of approaches and evaluation methods
2. Triple Trustworthiness Measurement for Knowledge Graph
3. SCEF: A Support-Confidence-aware Embedding Framework for Knowledge Graph Refinement

Reference:
醫療健康文本的關係抽取和屬性抽取
知識圖譜構建技術綜述與實踐
談談醫療健康領域的Phrase Mining
如何爲實體抽取描述性短語
抽取獲得的知識圖譜三元組該如何質檢?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章