實體-關係聯合抽取:Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

論文地址:https://www.aclweb.org/anthology/P17-1113.pdf

文章標題:Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme(基於新標註方案的實體與關係聯合抽取)ACL2017 Outstanding Paper

文章出處:中國科學院

作者對本文的報告PPT:http://t.cn/RXmunzm

Abstract

實體和關係聯合抽取是信息抽取中的重要任務。爲了解決這個問題,我們首先提出了一種新的標註方案,可以將聯合提取任務轉換爲標註問題。然後,基於我們的標註方案,我們研究了不同的端到端模型來直接提取實體及其關係,而不是分別識別實體和關係。對遠程監督方法產生的公開數據集進行實驗,實驗結果表明基於標註的方法優於現有的多數流水線和聯合學習方法。此外,本文提出的端到端模型在公開數據集上取得了最好的效果。

一、Introduction

實體和關係的聯合提取是從非結構化文本中同時檢測實體提及並識別它們的語義關係,如圖1所示。不同於從給定句子中提取關係詞的開放式信息抽取(Open IE)(Banko et al., 2007),在本任務中,從一個可能不出現在給定句子中預定關係集中提取關係詞。知識庫的提取和自動構建是一個重要的問題。

傳統方法以流水線的方式處理這個任務,即首先提取實體(Nadeau和Sekine,2007),然後識別它們之間的關係(Rink,2010)。這個分離的框架使得任務易於處理,並且每個組件可以更靈活。但它忽略了這兩個子任務之間的相關性,每個子任務是一個獨立的模型。實體識別的結果可能會影響關係分類的性能並導致錯誤傳播(Li和Ji,2014)。
在這裏插入圖片描述
圖一:任務的標準例句。“Country-President”是預定義關係集中的關係。

與流水線方法不同的是,聯合學習框架是使用單一模型將實體和關係一起提取出來。它可以有效地整合實體和關係的信息,在這個任務中取得了較好的效果。然而,大多數現有的聯合方法是基於特徵的結構化系統(Li和Ji,2014; Miwa和Sasaki,2014; Yu和Lam,2010; Ren等,2017)。他們需要複雜的特徵工程,並嚴重依賴其他NLP工具包,這也可能導致錯誤傳播。爲了減少特徵提取的人工工作,最近(Miwa和Bansal,2016)提出了一種基於神經網絡的端到端實體和關係提取方法。雖然聯合模型可以在一個模型中同時表示實體和共享參數之間的關係,但它們也可以分別提取實體和關係,產生冗餘信息。例如,圖1中的句子包含三個實體:“United States”,“Trump”和“Apple Inc”。但只有“United States”和“Trump”纔有固定的關係“Country-President”。實體“Apple Inc”與這個句子中的其他實體沒有明顯的關係。因此,從這個句子中提取的結果是{United Statese1,Country-Presidentr,Trumpe2},這裏叫三元組。

在本文中,我們重點提取由兩個實體和這兩個實體之間的一個關係組成的三元組。因此,我們可以直接對三元組進行建模,而不是分別提取實體和關係。基於這個動機,我們提出了一個標註方案,並配以端到端的模型來解決這個問題。我們設計了一種新穎的標註方案,它包含實體信息和它們所持有的關係。基於這種標註方案,實體和關係的聯合提取可以轉化爲標記問題。這樣,我們也可以很容易地使用神經網絡來建模任務,而不需要複雜的特徵工程。

最近,基於LSTM(Hochreiter and Schmidhuber,1997)的端到端模型已經成功應用於各種標籤任務:命名實體識別(Lample等,2016),CCG Supertagging(Vaswani等,2016),詞塊分割(Zhai等,2017)等。LSTM能夠學習長期依賴性,這對序列建模任務是有利的。因此,基於我們的標註方案,我們研究了不同種類的基於LSTM的端到端模型來共同提取實體和關係。我們還修改了解碼方法,增加了一個偏置損失,使其更適合我們的特殊標註。

我們提出的方法是一個監督學習算法。然而,實際上,手工標註具有大量實體和關係的訓練集的過程耗費太大,並且容易出錯。因此,我們通過遠程監督方法(Ren et al., 2017)產生的公開數據集進行實驗來驗證我們的方法。實驗結果表明我們的標註方案在這個任務中是有效的。另外,我們的端到端模型可以在公共數據集上取得最好的結果。

本文的主要貢獻是:(1)提出了一種新的標註方案,聯合提取實體和關係,可以很容易地將提取問題轉化爲標註任務。(2)基於我們的標註方案,我們研究了不同類型的端到端模型來解決問題。基於標記的方法比大多數現有的流水線和聯合學習方法要好。(3)此外,我們還開發了具有偏置損失函數的端到端模型,以適應新型標註,它可以增強相關實體之間的關聯。

二、Related Works

實體與關係抽取是構建知識庫的重要步驟,可爲許多NLP任務帶來益處。兩個主要框架已被廣泛用於解決提取實體及其關係的問題。一個是流水線方法,另一個是聯合學習方法

流水線方法將這個任務視爲兩個分離的任務,即命名實體識別(NER)(Nadeau和Sekine,2007)和關係分類(RC)(Rink,2010)。經典的NER模型是線性統計模型,如隱馬爾可夫模型(HMM)和條件隨機場(CRF)(Passos等,2014; Luo等,2015)。最近,幾個神經網絡體系結構(Chiu和Nichols,2015; Huang等,2015; Lample等,2016)已經成功應用於NER,這被認爲是一個連續的分詞標記任務。現有的關係分類方法也可以分爲基於手工特徵的方法(Rink,2010; Kambhatla,2004)和基於神經網絡的方法(Xu,2015a; Zheng et al., 2016; Zeng,2014; Xu,2015b; dos Santos ,2015)。

聯合模型使用單一模型提取實體和關係。大多數聯合方法是基於特徵的結構化系統(Ren等,2017; Yang和Cardie,2013; Singh等,2013; Miwa和Sasaki,2014; Li和Ji,2014)。最近,(Miwa和Bansal,2016)使用基於LSTM的模型來提取實體和關係,這可以減少人工工作。

與上述方法不同的是,本文提出的方法是基於一種特殊的標記方式,使得我們可以很容易地使用端到端模型來提取結果而不需要NER(命名實體識別)和RC(關係分類)。端到端的方法是將輸入句子映射成有意義的向量,然後返回產生一個序列。它廣泛應用於機器翻譯(Kalchbrenner和Blunsom,2013; Sutskever等,2014)和序列標註任務(Lample等,2016; Vaswani等,2016)。大多數方法使用雙向LSTM來對輸入句子進行編碼,但是解碼方法總是不同的。例如,(Lample等,2016)使用CRF層來解碼標註序列,而(Vaswani等,2016; Katiyar和Cardie,2016)應用LSTM層來產生標註序列。

三、Method

我們提出了一種新的標註方案和一個具有偏置目標函數的端到端模型來共同提取實體及其關係。在本節中,我們首先介紹如何將提取問題轉換爲基於本文標註方法的標註問題。然後我們將詳細說明用來提取結果的模型。

3.1、The Tagging Scheme(標註方案)

在這裏插入圖片描述
圖二: “CP”是“Country-President”的簡稱,“CF”是“Company-Founder”的簡稱,是一個基於我們標註方案的例句的標準黃金標註方案。

圖2是標註結果的示例。每個單詞都被分配一個標籤,用於提取結果。標籤“O”代表“Other”標籤,這意味着相應的單詞與提取結果無關。除了“O”之外,其他標籤由三部分組成實體中的單詞位置關係類型關係角色。我們使用“BIES”(Begin, Inside, End, Single)符號來表示單詞在實體中的位置信息關係類型信息是從一組預定義的關係中獲得的關係角色信息由數字“1”和“2”表示。提取的結果由三元組表示:(Entity1,RelationType,Entity2)。“1”表示該詞屬於三元組中的第一個實體,而“2”則屬於該關係類型後面的第二個實體。因此,標籤總數爲Nt = 2 * 4 * | R | + 1,其中| R |是預定義的關係集的大小。

圖2是一個說明我們的標註方法的例子。輸入句子包含兩個三元組:{United States, Country-President, Trump}和{Apple Inc, Company-Founder, Steven Paul Jobs},其中“Country-President”和“Company-Founder”是預定義的關係類型。United”,“States”,“Trump”,“Apple”,“Inc” ,“Steven”, “Paul”和“Jobs”等詞都與最終提取的結果有關。因此,他們根據我們的特殊標籤進行標註。例如“United”這個詞是“United States”實體的第一個詞,與“Country-President”關係有關,所以它的標籤是“B-CP-1”。對應於“United States”的另一個實體“Trump”被標記爲“S-CP-2”。此外,與最終結果無關的其他字詞標記爲“O”。

3.2、From Tag Sequence To Extracted Results(從標記序列到提取結果)

根據圖2中的標註序列,我們知道“Trump”和“United States”具有相同的關係類型“Country-President”,“Apple Inc”和“Steven Paul Jobs”具有相同的關係類型“Company-Founder”。我們將具有相同關係類型的實體合併爲一個三元組來獲得最終結果。因此,“Trump”和“United States”可以合併爲關係類型爲“Country-President”的三聯體。因爲,“Trump”的關係角色是“2”,“United States”是“1”,最終的結果是{United States, CountryPresident, Trump}。這同樣適用於{Apple Inc, Company-Founder, Steven Paul Jobs}。

此外,如果一個句子包含兩個或更多具有相同關係類型的三元組,我們將每兩個元素按照最接近的原則組合成一個三元組。例如,如果圖2中的關係類型“Country-President”是“Country-President”,則在給定句子中將有四個具有相同關係類型的實體。 “United States”最接近實體“Trump”,而“Apple Inc”最接近“Jobs”,因此結果將是{United States, Company-Founder, Trump}和{Apple Inc, Company-Founder, Steven Paul Jobs}。

在本文中,我們只考慮一個實體屬於一個三元組的情況,並且在將來的工作中考慮重疊關係的識別。

3.3、The End-to-end Model(端到端模型)

近年來,基於神經網絡的端到端模型在序列標註任務中得到了廣泛的應用。在本文中,我們採用了一個端到端的模型來生成標註序列,如圖3所示。它包含雙向長短期記憶(Bi-LSTM)層來對輸入句子和具有偏置損失的基於LSTM的解碼層進行編碼。偏置損失可以增強實體標籤的相關性
在這裏插入圖片描述
圖三:我們的模型圖。 (a)端到端模型的體系結構,(b)Bi-LSTM編碼層中的LSTM記憶塊,(c)LSTMd解碼層中的LSTM記憶塊

(1)Bi-LSTM編碼層
在序列標註問題中,Bi-LSTM編碼層已被證明有效捕獲每個單詞的語義信息。它包含前向Lstm層,後向Lstm層和連接層。詞嵌入層將one-hot表示的單詞轉換爲嵌入向量。因此,一個單詞序列可以表示爲W = {w1,… wt,wt+1 … wn},其中wt∈Rd是對應於句中第t個單詞的d維詞向量,n是給定句子的長度。在詞嵌入層之後,有兩個平行的LSTM層:前向LSTM層和後向LSTM層。 LSTM體系結構由一組遞歸連接的子網(稱爲記憶塊)組成。每個時間步是一個LSTM記憶塊。 Bi-LSTM編碼層中的LSTM記憶塊用於根據前一個隱藏向量ht-1、前一個單元向量ct-1和當前輸入詞表示wt計算當前隱藏向量ht。其結構圖如圖3(b)所示,具體操作定義如下:
在這裏插入圖片描述
其中i,f和o分別是輸入門、忘記門和輸出門,b是偏置項,c是記憶元,W(.)是參數。對於每個詞wt,前向LSTM層將通過考慮從詞w1到wt的上下文信息(其被標記爲ht(→))來編碼wt。類似地,後向LSTM層將基於從wn到wt的上下文信息來編碼wt,其被標記爲ht(←)。最後,我們連接和來表示字t的編碼信息,表示爲ht=[ht(→),ht(←)]。

(2)LSTM解碼器層
我們也採用LSTM結構來生成標註序列。當檢測到單詞wt的標註時,解碼層的輸入爲:從Bi-LSTM編碼層獲得的ht,以前的預測標籤表示Tt-1,以前的單元值:ct-1,以及解碼層中的前一個隱藏向量ht-1。圖3(c)顯示了LSTMd記憶塊的結構圖,具體操作定義如下:
在這裏插入圖片描述
最終的softmax層根據標籤預測向量Tt計算歸一化實體標籤概率:
在這裏插入圖片描述
Wy是softmax矩陣,Nt是標籤總數。由於T與標籤嵌入類似,並且LSTM能夠學習長期相關性,所以解碼方式可以對標籤交互進行建模。

(3)偏置目標函數
我們訓練我們的模型來最大化數據的對數似然性,我們使用的優化方法是Hinton在(Tieleman和Hinton,2012)提出的RMSprop。目標函數可以定義爲:
在這裏插入圖片描述
|D|是訓練集的大小,Lj是句子xj的長度,yi(j)是單詞xj中詞t的標註,pt(j)是在公式15中定義的歸一化標註概率。此外,I(O)是一個開關函數,以區分標註‘O’與可指示結果的相關標註間的損失。他被定義如下:
在這裏插入圖片描述
α是偏置權重,α越大,對模型中相關標註的影響越大。

四、Experiments

4.1、Experimental setting

數據集爲了評估我們方法的性能,我們使用由遠程監督方法(Ren et al., 2017)生成的公共數據集NYT。大量的訓練數據可以通過遠程監控的方式獲得,無需人工標註。測試集是手工標記以確保其質量。訓練數據總共包含353k三元組,測試集包含3,880三元組。此外,關係集的大小是24。

評估我們採用標準Precision(Prec)Recall(Rec)F1分數來評估結果。與經典方法不同,我們的方法可以在不知道實體類型信息的情況下提取三元組。換句話說,我們沒有使用實體類型的標籤來訓練模型,因此我們不需要在評估中考慮實體類型。當三元組的關係類型和兩個對應的實體的頭部偏移都是正確的時,這個三元組被認爲是正確的。此外,還給出了正確標註關係提及,並排除了“None”標籤(Ren等,2017; Li和Ji,2014; Miwa和Bansal,2016)。我們通過從測試集中隨機抽取10%的數據來創建驗證集,並使用剩餘的數據作爲基於(Ren等,2017)的建議的評估。我們對每個實驗運行10次,然後報告平均結果和它們的標準偏差,如表1所示。

超參數我們的模型由一個BiLSTM編碼層和一個具有偏置目標函數的LSTM解碼層組成。在編碼部分中使用的單詞向量是通過在NYT訓練語料庫上運行word2vec(Mikolov等,2013)來開始的。詞表示向量的維數爲d = 300,我們使用嵌入層上的損失來對我們的調整網絡,丟失率爲0.5。編碼層的lstm單元數爲300,解碼層數爲600。對應於表1結果的偏置參數α爲10。
在這裏插入圖片描述
表一:提取兩個實體及其關係的不同方法的預測結果。第一部分(從第一行到第三行)是流水線方法,第二部分(第四行到第六行)是聯合提取方法。我們的標註方法在第三部分(第7到第9行)中顯示。在這一部分,我們不僅報告準確率、召回率和F1的結果,我們還計算了它們的標準差。

基線我們將我們的方法與幾種經典的三元組提取方法進行比較,這些方法可以分爲以下幾類:流水線方法、聯合提取方法和基於標記方案的端到端方法。

對於流水線方法,我們遵循(Ren et al., 2017)的設置:NER結果由CoType(Ren等,2017)獲得,然後應用幾種經典的關係分類方法來檢測關係。這些方法是:(1)DS-logistic(Mintz等,2009)是一種遠程監督和基於特徵的方法,它結合了監督IE和無監督IE特徵的優點; (2)LINE(Tang等,2015)是一種網絡嵌入方法,適用於任意類型的信息網絡; (3)FCM(Gormley等,2015)是一個組合模型,它將詞彙化的語言語境和詞嵌入表示結合起來進行關係抽取。

本文所採用的聯合提取方法如下:(4)DS-Joint(Li和Ji,2014)是一種監督方法,它使用結構化感知器在人註釋的數據集上共同提取實體和關係。 (5)MultiR(Hoffmann等人,2011)是一種基於多實例學習算法的典型遠程監督方法,用於對付有噪聲的訓練數據; (6)CoType(Ren et al., 2017)是一個領域無關的框架,將實體提及、關係提及、文本特徵和類型標籤聯合嵌入到有意義的表示中。

此外,我們還將我們的方法與兩種典型的端到端標註模型進行了比較:LSTMCRF(Lample等,2016)和LSTM-LSTM(Vaswani等,2016)。通過使用雙向LSTM編碼輸入句子和條件隨機場來預測實體標註序列,提出LSTM-CRF用於實體識別。與LSTM-CRF不同,LSTM-LSTM使用LSTM層來解碼標註序列而不是CRF。它們被首次用於根據我們的標記方案共同提取實體和關係。

4.2、Experimental Results

我們展示了不同方法的結果,如表1所示。可以看出,我們的方法LSTM-LSTM-Bias在F1得分方面優於所有其他方法,與最佳方法CoType(Ren et al., 2017)相比,F1提高了3%。它顯示了我們提出的方法的有效性。從表1還可以看出,聯合提取方法優於流水線方法,標註方法優於大多數聯合提取方法。這也驗證了我們的標註方案對共同提取實體和關係的任務的有效性。

與傳統方法相比,端到端模型的準確率顯著提高。但是只有LSTM-LSTM-Bias可以更好地平衡準確率和召回率。原因可能是這些端到端模型都使用Bi-LSTM編碼輸入句子和不同的神經網絡來解碼結果。基於神經網絡的方法可以很好地擬合數據。因此,他們可以很好地學習訓練集的共同特徵,並可能導致較低的可擴展性。我們還發現,基於我們的標註方案,LSTM-LSTM模型優於LSTM-CRF模型。因爲,LSTM能夠學習長期的依賴關係,CRF(Lafferty等,2001)擅長捕捉整個標註序列的聯合概率。相關的標籤可能相距很遠。因此,LSTM解碼方式比CRF好一些。 LSTM-LSTM-Bias增加了一個偏置權重,以增強實體標註的效果,減弱無效標註的影響。因此,在這個標註方案中,我們的方法可以比普通的LSTM解碼方法更好。
在這裏插入圖片描述
表二:基於我們的標註方案的三元組元素的預測結果。

五、Analysis and Discussion

5.1、Error Analysis(錯誤分析)

在本文中,我們着重於提取由兩個實體和一個關係組成的三元組。表1顯示了任務的預測結果。只有當兩個相應實體的關係類型和頭部偏移量都是正確的時候,它才能處理三元組。爲了找出影響端到端模型結果的因素,我們分析了預測三元組中每個元素的性能,如表2所示。E1和E2分別表示預測每個實體的性能。如果第一個實體的頭部偏移是正確的,那麼E1的實例是正確的,與E2相同。不管關係類型,如果兩個對應實體的頭部偏移都是正確的,則(E1,E2)的實例是正確的。

如表2所示,與E1和E2相比,(E1,E2)具有更高的準確率。但其召回率低於E1和E2。這意味着一些預測的實體不會形成一對。他們只獲得E1而沒有找到相應的E2,或者獲得E2並且沒有找到相應的E1。因此,它導致更多的單E和更少(E1,E2)對的預測。因此,實體對(E1,E2)比單個E具有更高的準確率和更低的召回率。另外,表1中的預測結果與表1中的預測結果相比,表2中的(E1,E2)這意味着3%的測試數據被預測爲錯誤的,因爲關係類型被預測爲錯誤的。

5.2、Analysis of Biased Loss(偏置損失分析)

與LSTM-CRF和LSTM-LSTM不同的是,我們的方法偏向於關係標籤來增強實體之間的聯繫。爲了進一步分析偏置目標函數的影響,我們將每個端到端方法預測單個實體的比例可視化,如圖4所示。單個實體是指那些找不到相應實體的實體。圖4顯示了是E1還是E2,我們的方法在單個實體上的比例相對較低。這意味着我們的方法可以有效地將兩個實體關聯起來,比較LSTM-CRF和LSTM-LSTM對關係標籤關注不多。

此外,我們也將偏差參數α從1改變到20,預測結果如圖5所示。如果α太大,會影響預測的準確率,如果α太小,召回率會下降。當α= 10時,LSTM-LSTMBias可以平衡準確率和召回率,並且可以達到最好的F1分數。

5.3、Case Study(案例分析)

在本節中,我們觀察端到端方法的預測結果,然後選擇幾個有代表性的例子來說明這些方法的優缺點,如表3所示。每個例子包含三行,第一行是黃金標準,第二行和第三行分別是模型LSTM-LSTM和LSTM-LSTM-Bias的提取結果。

S1表示兩個相關實體之間的距離彼此很遠的情況,這使得更難以發現他們的關係。與LSTMLSTM相比,LSTM-LSTM-Bias使用偏置目標函數來增強實體之間的相關性。因此,在這個例子中,LSTM-LSTMBias可以提取兩個相關的實體,而LSTMLSTM只能提取一個“Florida”實體,不能檢測實體“Panama City Beach”。

S2是一個負面的例子,表明這些方法可能錯誤地預測了一個實體。Nuremberg和Germany實體之間沒有任何指示性詞語。另外,Germany和MiddleAges之間的“a *”形式可能容易誤導它們之間存在“包含”關係的模式。通過將這種表達模式的一些樣本添加到訓練數據中可以解決問題。

S3是模型可以預測實體頭部偏移量的情況,但是關係角色是錯誤的。 LSTM-LSTM將“Stephen A.Schwarzman”和“Blackstone Group”都視爲實體E 1,並且找不到相應的E 2。雖然LSTM-LSMT-Bias可以找到實體對(E1,E2)它扭轉了“Stephen A. Schwarzman”和“Blackstone Group”的角色。這說明LSTM-LSTM-Bias能夠更好地預測實體對,但是在區分兩個實體之間的關係方面還有待改進。

六、Conclusion

在本文中,我們提出了一種新的標註方案,並研究端到端模型來共同提取實體和關係。實驗結果表明了我們提出的方法的有效性。但是在重疊關係的識別上還存在着一些缺陷。在未來的工作中,我們將用多個分類器來替換輸出層中的softmax函數,這樣一個詞可以有多個標籤。這樣,一個單詞可以出現在多個三元組結果中,可以解決重疊關係的問題。儘管我們的模型可以增強實體標註的效果,但是兩個相應的實體之間的關聯仍然需要在接下來的工作中進行細化。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章