實體-關係聯合抽取:CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases

文章地址:https://arxiv.org/pdf/1610.08763.pdf

文章標題:CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases(聯合提取類型化實體和與知識庫的關係)WWW2017

文章源代碼:https://github.com/INK-USC/DS-RelationExtraction

ABSTRACT

從文本中提取興趣類型的實體和關係對於理解大量文本非常重要。傳統上,實體關係提取系統依靠人工-公司進行訓練,並採用增量管道。此類系統需要額外的人類專業知識才能移植到新的領域,而且容易出現管道下級聯的錯誤。知識基礎(即遠程監督)。由於我們的類型標記算法——通過遠程監督是上下文無關的,嘈雜的訓練數據,給任務帶來了獨特的挑戰。我們提出了一種新的域獨立框架,稱爲COTYPE它運行一種數據驅動的文本分割算法來提取實體提及,並共同將實體提及、關係提及、文本特徵和類型-標籤嵌入到兩個低維空間(分別用於實體和關係提及)。其中,在每個空間中,類型爲 " 接近" 的對象也將具有類似的表示形式。COTYPE,然後使用這些學習的嵌入,估計測試的類型(不可鏈接)提及。我們制定了一個聯合優化問題,從文本公司和知識庫中學習嵌入,採用針對噪聲標記數據的新型"部分標籤丟失函數",並引入對象"翻譯"函數來捕獲交叉約束的實體和相互的關係。對三個公共數據集的實驗表明,COTYPE在不同領域(如新聞、生物醫學)的有效性,與下一個最佳方法相比,F1 分數平均提高了 25%。

一、INTRODUCTION

實體及其關係的提取是理解海量文本語料庫的關鍵。標識構成實體提及的文本中的令牌跨度,併爲這些跨度分配類型(例如person、company)以及實體提及之間的關係(例如employed_by),這是構建文本語料庫內容以進行進一步分析的關鍵。例如,當提取系統在新聞文章中發現“公司”和“產品”實體之間的“產品”關係時,它支持回答諸如“X公司生產什麼產品?”這些結構化的信息一旦被提取出來,就會以多種方式被使用,如信息提取中的原語、知識庫填充[10,52]和問答系統[48,3]。傳統的關係提取系統[2,9,17]將流程劃分爲幾個子任務,並以增量的方式解決它們(即,從文本中檢測實體,標記它們的類型,然後提取它們的關係)。此類系統獨立地處理子任務,因此可能會將錯誤傳播到流程中的各個子任務。最近的研究[24,32,44]集中在聯合提取方法來捕獲關係和實體參數之間的內在語言依賴(例如,實體參數的類型有助於確定它們的關係類型,反之亦然)來解決錯誤傳播。

聯合提取類型化實體和關係的一個主要挑戰是設計獨立於域的系統,該系統將在沒有人工標註的域數據的情況下應用於來自不同域的文本語料庫。手工標記具有大量實體和關係類型的訓練集的過程開銷太大,而且容易出錯。大型的、特定領域的文本語料庫(例如,新聞、科學出版物、社交媒體內容)的迅速出現,要求能夠聯合提取目標類型實體和關係的方法,而這些實體和關係幾乎不需要人工監督。
在這裏插入圖片描述
圖一:當前系統查找關係(巴拉克·奧巴馬,美國)* 在句子 S1-S3 中提到的關係類型(實體類型)分配給所有關係提及(實體提及),當只有某些類型對上下文正確時(以藍色字體突出顯示)。

要實現這一目標,大致有兩種努力:弱監管和遠程監管弱監督[6,36,13]依賴於一小組手工指定的種子實例(或模式),這些實例應用於引導學習,以識別每種類型的更多實例。這假設種子是明確的和充分頻繁的語料庫,這需要仔細的種子密封由人類[2]。遠程監督[31,43,21,49]通過對齊文本和知識庫(KB)自動生成訓練數據(見圖1)。典型的工作流程爲:(1)檢測文本中提到的實體;(2)將檢測到的實體映射到知識庫中的實體;(3)將所述各實體的所有KB映射實體的所有KB類型賦給該實體的候選類型集;(4)向每個實體提及對的候選類型集分配它們的KB映射實體之間的所有KB關係類型。然後使用自動標記的訓練語料庫來推斷剩餘的候選實體提及和關係提及的類型。

本文研究了類型化實體的聯合抽取問題以及與遠程監控的關係。給定一個領域特定的語料庫和一組來自知識庫的目標實體和關係類型,我們的目標是檢測文本中提到的關係(以及它們的實體參數),並根據目標類型或非目標類型(None)在上下文中對每種關係進行分類,並進行遠程監控。目前的遠程監控方法側重於單獨解決子任務(如提取類型化實體或關係),在處理聯合提取任務時遇到以下限制。

(1)域限制:它們依賴於預先訓練的命名實體識別器(或名詞短語塊)來檢測實體提及。

(2)錯誤傳播:在當前提取管道中,實體識別和鍵入步驟中生成的不正確的實體類型充當關係提取步驟中的功能。

(3)標籤噪音:在遠程監督中,上下文無關的映射從關係(實體)提到KB關係(實體)可能會帶來誤正型標籤(即標籤噪聲)到自動標記的訓練公司,結果不準確的模型。

巴拉克·奧巴馬和美國之間的所有KB關係(例如,born_in, president_of)都被分配到句子S1中提到的關係(只有born_in在上下文中是正確的)。類似地,巴拉克·奧巴馬的所有KB類型(例如,政治家、藝術家)都被指定爲S1中提到的“Obama”(只有person是真的)。標籤噪聲成爲學習有效類型分類器的障礙。目標類型設置越大,標籤噪聲的程度越嚴重(見表1)。
在這裏插入圖片描述
表一:類型標籤噪聲的研究。(1): %實體在給定實體類型層次結構中提及多個同級實體類型(例如,參與者、歌手);(2):對於三個實驗數據集,使用多個關係類型提及的百分比關係。

我們的聯合提取任務如下:(1)設計一種與領域無關的文本分割算法來檢測候選的實體提及,同時採用遠程監控和最小的語言假設(即,假設標註詞性的語料庫爲[22])。(2)對關係提及類型與實體參數類型之間的相互約束進行建模,實現兩個子任務之間的反饋。(3)模型的真實類型標籤候選人類型設置爲潛變量和只需要“最好”的類型(逐步估計我們學習模型)少提到這個是限制相關要求與現有多標記分類器相比,認爲“每一個”類型是提到相關候選人。

爲了整合這些元素,我們提出了一個新的框架,COTYPE。它首先運行後約束文本分割使用積極的例子從知識庫中挖掘質量實體提及,並形成候選關係提及(第3.1節)。然後,COTYPE執行實體鏈接,將候選關係(實體)映射到知識庫關係(實體),並獲取知識庫類型。我們制定了一個全局目標來聯合建模(1)可鏈接關係(實體)提及和從其本地上下文提取的文本特徵之間的語料庫級的共現;(2)提及物與其kb映射類型標籤之間的關聯;(3)關係提及與實體參數之間的交互。特別地,我們設計了一個新的部分標記損失模型,以一種魯棒的方式來模擬嘈雜的標記關聯,並採用基於翻譯的目標來捕獲實體-關係的相互作用。將目標最小化會產生兩個低維空間(分別表示實體和關係),其中,在每個空間中,其類型在語義上相近的對象也具有類似的表示(參見第3.2節)。通過學習嵌入,我們可以有效地估計其餘不可鏈接的關係提及及其實體參數的類型(參見第3.3節)。

本文的主要貢獻如下:

  • 摘要提出了一種新的遠程監控框架COTYPE,在最小語言假設下提取領域特定語料庫中的類型化實體和關係。
  • 提出了一種基於領域無關的文本分割算法,利用遠程監控來檢測實體提及。
  • 提出了一種關節嵌入目標,該目標以噪聲魯棒的方式對三維關聯、三維-特徵共現、實體-關係交叉約束進行了建模。
  • 對三個公共數據集的實驗表明,COTYPE顯著地提高了最先進的實體類型和關係提取系統的性能,顯示了健壯的領域獨立性。

二、BACKGROUND AND PROBLEM

(1)Entity and Relation Mention
(2)Knowledge Bases and Target Types
(3)Automatically Labeled Training Data
(4)Problem Description.
(5)Non-goals.

三、THE COTYPE FRAMEWORK

本節列出了建議的框架。聯合提取任務提出了兩個獨特的挑戰。首先,可鏈接的實體(關係)提及和它們的kb映射實體(關係)之間的遠程監控中的類型關聯是上下文無關的——候選類型集,包含“假”類型。監督學習可能會產生偏向於錯誤類型標籤的模型。其次,關係提及和它們的實體參數之間存在依賴關係(例如,類型相關)。現有的系統將任務描述爲級聯監督學習問題,可能會出現錯誤傳播。

我們的解決方案將類型預測任務轉換爲弱監督學習(在上下文中對提及及其候選類型之間的關聯進行建模),並基於大型語料庫中的冗餘文本信號,使用關係學習聯合捕獲提及及其實體提及參數之間的交互。

具體來說,COTYPE利用局部標籤學習來忠實地使用從提及的本地上下文提取的文本特徵來建模提及類型關聯。它使用基於翻譯嵌入的目標來建模關係提及及其實體(提及)參數之間的相互類型依賴關係
在這裏插入圖片描述
圖二:COTYPE的框架概述

我們提出了一個基於嵌入式的遠程監控框架(見圖2),具體如下:

  • 使用從知識庫中獲得的正樣本,對帶poser標記的語料庫D運行poser約束的文本分割算法,以檢測候選實體。
  • 從M中生成候選關係提到Z,提取每個關係提到z及其實體提到參數的文本特徵。應用遠程監控生成標記的訓練數據DL。
  • 在兩個低維空間(分別用於實體和關係)中共同嵌入關係和實體提及、文本特性和類型標籤,其中,在每個空間中,緊密的對象傾向於共享相同的類型。

3.1 Candidate Generation

(1)Entity Mention Detection
傳統的實體識別系統依賴於一組語言特徵(如句子的依賴解析結構)來訓練序列標記模型(用於一些常見的實體類型)。然而,在自動標記的語料庫DL上訓練的序列標記模型可能並不有效,因爲遠程監控只在DL中註釋少量的實體提及(從而產生大量“假陰性”標記標記)。爲了解決域限制問題,我們開發了一種用於領域無關實體檢測的遠程監督文本分割算法。它以知識庫中的高質量示例爲指導,通過合併(1)語料庫級的一致性統計,將句子分成實體提及和單詞片段;(2)句子級詞彙信號;(3)語法限制(即, POS標籤模式)。

我們擴展了文獻中使用的方法來建模片段質量(即片段質量)。,“一個候選部分被實體提及的可能性有多大”)作爲短語質量和POS模式質量的組合,並使用DL中的積極例子來估計部分質量。其工作流程如下:(1)從POS標記語料庫D中挖掘出固定長度的詞序和POS標記序列的頻繁連續模式;(2)提取語料級一致性和句子級詞彙信號等特徵,訓練兩個隨機森林分類器[27],用於估計候選短語和候選POS模式的質量;(3)利用估計的片段質量分數,找到D的最佳分割;(4)利用分割後的語料庫計算待矯正特徵,重複步驟(2)-(4)直到結果收斂。
在這裏插入圖片描述
表二:實體提及檢測的F1得分比較
在這裏插入圖片描述
圖三:使用KB示例學習POS標記模式的示例

表2比較了我們的實體檢測模塊和在標記的語料庫DL上訓練的序列標記模型[26](linear-chain CRF)的F1分數。圖3顯示了使用DL中的實體名稱學習的高/低質量POS模式的例子。

(2)Relation Mention Generation
我們按照第2節中介紹的步驟,從被檢測到的候選實體中生成候選關係Z:對於句子s中發現的每一對實體提及(ma;mb),我們形成兩個候選關係z1 = (ma;mb;s)和z2 = (mb;ma;s).然後對Z進行遠程監控,生成一組提到ZL的KBmapped relation。與[31,21]類似,我們在一個句子中採樣兩個kb映射的實體提及(來自set ML)之間30%不可鏈接的關係提及(來自set ML)作爲建模無關係標籤的示例,採樣30%不可鏈接的實體提及(來自set MnML)作爲建模無實體標籤的示例。這些負面的示例,以及ZL中提到的類型標籤,形成任務的自動標記數據DL。

(3)Text Feature Extraction
爲了捕獲關係(或實體)提及的淺層語法和分佈語義,我們從帶後標記的語料庫中的提及本身(如head token)及其上下文(如bigram)中提取各種詞彙特徵。表3列出了關係提及的一組文本特性,它們與[31,7]中使用的特性類似(不包括基於依賴項解析的特性和實體類型特性)。我們使用與在[42,26]中使用的相同的實體提及功能集。我們將提取的關係提及ZL (ZL中的實體提及)的Mz (Mm)唯一特徵集稱爲Fz。

3.2 Joint Entity and Relation Embedding

本節針對可鏈接關係提到ZL、可鏈接實體提到ML、實體和關係類型標籤{R;Y}和文本特徵{Fz;Fm}分爲d維關係向量空間和d維實體向量空間。在每個空間中,類型相近的對象應該具有相似的表示。

由於被提取的對象和它們之間的相互作用形成了一個異構的圖(見圖2),一個簡單的解決方案是將整個圖嵌入到一個低維空間中。但是,這樣的解決方案會遇到幾個問題:(1)候選類型集中的假類型(即,圖中的錯誤提到類型鏈接)對模型確定提及的真實類型的能力產生負面影響;(2)單個嵌入空間無法捕獲實體和關係類型(即,關係提及及其實體提及參數之間的強鏈接並不意味着它們具有相似的類型)。

在我們的解決方案中,我們提出了一個新的全局目標,該目標將基於邊緣的秩損失擴展到模型嘈雜的維度類型的關聯,並利用二階近似思想來建模微粒級別的維度-特徵共出現。特別地,爲了捕獲實體-關係的交互作用,我們採用基於翻譯的嵌入損失來橋接實體提及和關係提及的向量空間。

四、EXPERIMENTS

數據集:(1)NYT;(2)Wiki-KBP;(3)BioInfer;

五、RELATED WORK

(1)Entity and Relation Extraction
(2)Learning Embeddings and Noisy Labels

六、CONCLUSION

本文研究了領域無關、類型化實體的聯合提取以及文本中遠程監控的關係。提出的共類型框架運行領域不可知的分割算法來挖掘實體提及,並將聯合實體和關聯提及的類型問題作爲全局嵌入問題。我們設計了一個噪聲魯棒目標來忠實地建模噪聲類型標籤,並捕獲實體與關係之間的相互依賴關係。實驗結果證明了共型在不同領域文本語料上的有效性和魯棒性。未來有趣的工作包括:在訓練數據中加入僞反饋思想[53]來減少假陰性類型標籤,在給定的類型層次結構[42]中建模類型相關性,以及對測試實體提及和關係提及聯合執行類型推斷。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章