實體-關係聯合抽取:Incorporating Copying Mechanism in Sequence-to-Sequence Learning

文章標題:https://www.aclweb.org/anthology/P16-1154.pdf

文章題目:Incorporating Copying Mechanism in Sequence-to-Sequence Learning(將複製機制整合到序列到序列的學習中)ACL2016

寫在前面:這篇文章基於Seq2Seq網絡提出了“複製機制”,主要針對文本摘要任務,但是在實體-關係聯合抽取任務中,對於實體重疊問題,可以採取此方法來對重疊的實體進行復制,此方法對於解決實體-關係聯合抽取任務中的實體重疊問題提供了信思路。

Abstract

我們解決了一個重要的問題,在序列到序列(Seq2Seq)學習中被稱爲複製,其中輸入序列中的某些片段被選擇性地複製到輸出序列中。在人類語言交際中也存在類似的現象。例如,人類傾向於在談話中重複實體名稱甚至是長短語。Seq2Seq中關於複製的挑戰是需要新的機器來決定何時執行操作。在本文中,我們將複製引入基於神經網絡的Seq2Seq學習中,提出了一種新的具有編碼器和解碼器結構的COPYNET模型COPYNET可以很好地將解碼器中常規的單詞生成方式與新的複製機制集成在一起,這種複製機制可以選擇輸入序列中的子序列,並將它們放在輸出序列中的適當位置。我們對合成數據集和真實世界數據集的實證研究證明了COPYNET的有效性。例如,在文本摘要任務上,COPYNET可以比基於RNN的常規模型有顯著的優勢。

一、Introduction

最近,基於神經網絡的序列到序列學習(Seq2Seq)在各種自然語言處理(NLP)任務中取得了顯著的成功,包括但不限於機器翻譯(Cho等,2014;Bahdanau et al., 2014),句法分析(Vinyals et al., 2015),文本摘要(Rush et al., 2015)和對話系統(Vinyals and Le, 2015)。Seq2Seq本質上是一個編碼器-解碼器模型,在這個模型中,編碼器首先將輸入序列轉換爲特定的表示,然後再將該表示轉換爲輸出序列。在Seq2Seq中加入注意力機制(Bahdanau et al., 2014),這是機器翻譯中首次提出的自動對齊機制,它顯著提高了各種任務的性能(Shang et al., 2015;Rush等人,2015)。與規範的encoder-decoder架構不同,基於注意力的Seq2Seq模型以其原始形式(單詞表示的數組)對輸入序列進行了修正,並動態地獲取相關的信息片段,而這些信息大部分是基於輸出序列生成的反饋

在這篇論文中,我們探討了另一種對人類語言交流很重要的機制,稱爲 “複製機制”。基本上,它指的是定位輸入語句的某個片段並將該片段放入輸出序列的機制。例如,在下面的兩個對話中,我們觀察到不同的模式,其中響應®中的一些子序列(藍色)是從輸入語句(I)中複製出來的:
在這裏插入圖片描述
規範的編碼器-解碼器及其具有注意機制的變體都嚴重依賴於“意義”的表示,如果系統需要引用輸入的子序列(如實體名稱或日期)時,那麼這種表示可能不夠準確。與此相反,複製機制更接近於人類語言處理中的死記硬背,因此在基於神經網絡的模型中需要不同的建模策略。我們認爲,擁有一個優雅的統一模型可以同時適應理解死記硬背,這對許多Seq2Seq任務都有好處。爲了實現這一目標,我們提出了COPYNET它不僅能夠正常生成單詞,而且能夠複製輸入序列的適當片段儘管複製的操作看起來很“困難”,但CopyNet可以以一種端到端的方式進行訓練。我們對合成數據集和真實數據集的實證研究證明了COPYNET的有效性。

二、Background: Neural Models for Sequence-to-sequence Learning

Seq2Seq學習可以用概率的觀點來表示,即最大化觀察給定輸入(源)序列的輸出(目標)序列的可能性(或其他一些評價指標(Shen et al., 2015))。

2.1 RNN Encoder-Decoder

2.2 The Attention Mechanism

三、COPYNET

從認知的角度來看,複製機制與死記硬背有關,需要較少的理解,但保證了較高的文字保真度。從建模的角度來看,複製操作更加嚴格和符號化,這使得它比軟注意機制更難集成到一個完全可微分的神經模型中。在本節中,我們提出了具有“複製機制”的可微Seq2Seq模型COPYNET,它可以通過梯度下降的方式進行端到端的訓練
在這裏插入圖片描述
圖一:COPYNET的總體圖表。爲了簡單起見,我們省略了一些用於預測的鏈接(更多細節請參見3.2節)。

3.1 Model Overview

如圖1所示,COPYNET仍然是一個編碼器-解碼器(在稍微廣義的意義上)。編碼器將源序列轉換爲表示,然後解碼器讀取該表示法以生成目標序列

(1)Encoder
與(Bahdanau et al., 2014)中的編碼器相同,使用雙向RNN將源序列轉換成一系列長度相等的隱藏狀態,每個隱藏狀態ht對應於詞xt。這個新的表示源,{h1,…,hTS}被認爲是一種短期記憶(在本文其餘部分稱爲M),以後將以多種方式訪問它以生成目標序列(解碼)。

(2)Decoder
一個讀取M並預測目標序列的RNN。它與規範的RNN-解碼器(Bahdanau et al., 2014)相似,但有以下重要區別:

  • Prediction:COPYNET基於兩種模式:即生成模式(generate-mode)和複製模式(copy-mode),後者從源序列中選擇單詞)的混合概率模型預測單詞(見3.2節):
  • State Update:t−1時預測的單詞用於更新t時的狀態,而COPYNET不僅使用其嵌入的單詞,還使用其在M中對應的特定位置的隱藏狀態(如果有的話)(更多信息參見第3.3節);
  • Reading M除了專注地讀到M之外,COPYNET也有“選擇性讀”到M,這導致了基於內容的尋址和基於位置的尋址的強大混合(更多討論請參見3.3和3.4節)。

3.2 Prediction with Copying and Generation(通過複製和生成進行預測)

我們假設一個詞彙 V = {v1,…,Vn},對於任何非詞彙表(OOV)單詞使用UNK。此外,我們還有另一組單詞X,對於源序列 X = {x1,…,xt} 中的所有獨特的單詞。由於X可能包含不在V中的單詞,所以在X中複製子序列可以使COPYNET輸出一些OOV單詞。簡而言之,源X的實例特定詞彙表是V ∪ UNK ∪ X

給定譯碼器在t時刻的RNN狀態st和M,任何目標字yt的生成概率由概率的“混合”給出如下:
在這裏插入圖片描述
其中g表示生成模式,c表示複製模式。分別給出了兩種模態的概率:
在這裏插入圖片描述
其中g(·)和c(·)分別爲產生模式和複製模式的評分函數,Z爲兩種模式共有的歸一化項。由於共享歸一化術語,這兩種模式基本上是通過一個softmax函數進行競爭(參見圖1中的示例說明),使得公式4不同於混合模型的規範定義(McLachlan和Basford, 1988)。這在圖2中也有圖示。計算每個模式的分數:
在這裏插入圖片描述
圖二:說明解碼概率p(yt|·)是一個4類分類器。

(1)Generate-Mode
使用與一般RNN編解碼器相同的評分功能(Bahdanau et al., 2014),即:
在這裏插入圖片描述

(2)Copy-Mode
“複製”單詞xj的分數計算爲:
在這裏插入圖片描述
根據經驗,我們也發現使用tanh非線性比線性變換更有效,我們在接下來的實驗中使用它。在計算複製模式分數時,我們使用隱藏狀態{h1,…,hTS}來“表示”源序列{x1,…,xTS},因爲雙向RNN不僅將內容編碼,還將位置信息編碼到M的隱藏狀態。位置信息對於複製非常重要(相關討論見3.4節)。注意,我們將等式(6)中所有xj=yt的概率相加,考慮到譯碼yt可能有多個源符號。當yt不出現在源序列時,令p(yt, c|·)= 0;當yt只出現在源序列時,令p(yt, g|·)= 0。

3.3 State Update(狀態更新)

對於基於一般注意的Seq2Seq模型,COPYNET使用前面的狀態st−1、前面的符號yt−1和公式2後面的上下文向量ct更新每個解碼狀態st。
在這裏插入圖片描述
實際上,ptπ 通常集中在多個外觀中的一個位置,這表明預測與單詞的位置密切相關。

正如將在3.4節中討論的那樣,這種特殊的設計可能有助於複製模式覆蓋連續的單詞子序列。

3.4 Hybrid Addressing of M(對M的混合尋址)

我們假設COPYNET使用混合策略來獲取M中的內容,它結合了基於內容和基於位置的尋址這兩種尋址策略由解碼器RNN協調,以管理細心讀和選擇性讀,以及決定何時進入/退出複製模式

一個經過適當訓練的編碼器RNN將一個單詞的語義和它在X中的位置編碼成M中的隱藏狀態。從我們的實驗中可以看出,COPYNET的細心閱讀更多的是受語義和語言模型的驅動,因此能夠更自由地在M上移動,甚至可以跨越很長的距離。另一方面,一旦COPYNET進入copy-mode,M的選擇性讀取通常由位置信息引導。因此,選擇性閱讀往往採取僵硬的行動,往往涵蓋連續的單詞,包括UNKs。與神經圖靈機器中混合尋址的顯式設計不同(Graves等,2014;(Kurach et al., 2015), COPYNET更微妙:它提供了架構,可以促進一些特定的基於位置的尋址,並讓模型從特定任務的訓練數據中找出細節。

(1)Location-based Addressing(基於位置的處理)

(2)Handling Out-of-Vocabulary Words(處理詞彙表之外的詞彙)

四、Learning

雖然複製機制使用**“硬”操作**從源複製,並選擇粘貼它們或從詞彙表生成符號,但COPYNET是完全可區分的,可以使用反向傳播以端到端的方式進行優化給定源序列和目標序列{X}N和{Y}N的批次,目標是最小化負對數似然
在這裏插入圖片描述
我們使用上標來索引實例。由於觀察任何目標單詞的概率模型是生成模式和複製模式的混合,因此不需要爲模式添加任何額外的標籤,網絡可以從數據中學習協調兩種模式。更具體地說,如果在源序列中找到一個特定的單詞y(k)t,那麼複製模式將有助於混合模型,而梯度將或多或少地鼓勵複製模式;否則,由於共享歸一化項z的競爭,不鼓勵複製模式。在實踐中,大多數情況下是一種模式占主導地位。

五、Experiments

我們報告了我們的實證研究的COPYNET在以下三個不同的特點的任務:

  • 一個具有簡單模式的合成數據集;
  • 一個現實世界的文本摘要任務;
  • 用於簡單單輪對話的數據集;

六、Related Work

我們的工作部分受到Pointer Networks(Vinyals et al., 2015a)的啓發,其中使用指針機制(與提議的複製機制非常相似)直接從輸入預測輸出序列。除了在應用上與我們的不同,(Vinyals et al., 2015a)不能預測輸入序列集合之外,而COPYNET可以自然地將生成和複製結合起來。

COPYNET還與解決神經機器翻譯中的OOV問題有關。Luong等人(2015)提出了一種使用源句註釋對翻譯後的句子進行後處理的啓發式方法。相比之下,COPYNET通過端到端模型以更系統的方式解決了OOV問題。但是,由於COPYNET將確切的源單詞複製爲輸出,因此它不能直接應用於機器翻譯。然而,這種複製機制可以自然地擴展到除輸入序列之外的任何類型的引用,這將有助於具有異構源和目標序列(如機器翻譯)的應用程序。

(注:OOV問題指代Out of Vocabulary)

複製機制也可以看作是在沒有任何非線性轉換的情況下將信息傳送到下一階段。(Srivastava et al., 2015; He et al., 2015)的分類任務,其中的捷徑是建立在層之間的直接攜帶信息

最近,我們注意到一些類似於或與複製相關的建模機制的並行工作。Cheng和Lapata(2016)設計了一種能夠從源中提取單詞/句子的神經摘要模型。Gulcehre等人(2016)提出了一種指向方法來處理OOV單詞進行總結和MT。相比之下,COPYNET更通用,不侷限於特定的任務或OOV單詞。此外,softmaxCOPYNET在處理兩種模式混合的相關工作中比門控更靈活,因爲它能夠充分地對複製段的內容建模。

七、Conclusion and Future Work

我們建議使用COPYNET將複製合併到序列到序列的學習框架中。在以後的工作中,我們將把這一思想擴展到源和目標是異構類型的任務,例如,機器翻譯。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章