【論文解讀 arXiv 2020 | RA-GCN】Event Detection with Relation-Aware Graph Convolutional Networks

論文題目:Event Detection with Relation-Aware Graph Convolutional Networks

論文來源:arXiv 2020.02.25

論文鏈接:https://arxiv.org/abs/2002.10757

關鍵詞:事件檢測(ED),圖卷積神經網絡(GCN),句法關係標籤



1 摘要


事件檢測(ED)是信息抽取的一個重要子任務,目的是識別出文本中特定類型的事件實例。近期,在依存樹上的圖卷積神經網絡(GCNs)被廣泛應用於捕獲語義結構的信息,並在事件檢測任務中得到了可觀的效果。

然而,這些方法忽視了樹中的語義相關的標籤,這些標籤中蘊含着豐富的語言學知識,對事件檢測任務很有幫助。

本文提出一個新的框架——關係感知的GCN(Relation-Aware GCN, RA-GCN),該模型高效利用了句法關係的標籤並且對單詞間的關係進行了建模。

本文首先提出關係感知的聚合模型,通過特定的關係聚合具有語法關聯的詞,來生成表示能力強的詞表示。然後設計了內容感知的關係更新模型(context-aware relation update module),對節點間關係的表示進行更新。並且這兩個模塊是相互促進的。

在ACE2005數據集上進行了實驗,結果表明本文的模型在事件檢測任務上取得了state-of-the-art的效果(F1值)。


2 引言


(1)事件檢測(Event Detection)

ED是信息檢索的一個重要的子任務,旨在從給定的文本中檢測出來特定類型的事件。

句子中的每個事件都由一個叫做“事件觸發器(event trigger)”的單詞或短語標記,事件觸發器表示了一個事件的出現。ED的目的就是檢測出句子中的事件觸發器,並將它們分到相應的事件類別

圖1爲例,ED就是爲了識別出事件觸發器“visted”並且將其分類成類型爲“Meet”的事件。


(2)句法依存(Syntactic dependency)

句法依存表達了一個句子中單詞之間的互相依賴關係,可以爲ED提供關鍵的信息。

句法依存包括句法結構信息句法依存關係。其中,句法結構信息表示了兩個單詞之間的句法聯繫;句法依存關係描述了兩個單詞之間特定類型的句法關聯

例如,圖1就是一個句法依存解析的例子,句法依存結構通常表示成樹的結構圖1中的單詞 “Putin”, “visited”, “Bush” 通過句法結構相關聯,組成了一個事件。這也就表明了句法結構有助於爲ED提供關鍵的信息。

此外,我們認爲一個詞的句法依存關係是決定該詞是否爲觸發詞的重要指標。例如,圖1中的 “nsubj”, “dobj”, “nmod” 都是和觸發器相關的句法關係。“nsubj” 和 “dobj” 表示 “Pustin” 和 “Bush” 分別是 “visted” 的主語和賓語,“nmod” 接的單詞表示事件發生的時間和地點。這表明單詞 “visted” 更有可能是一個事件的觸發詞。

根據我們在ACE2005數據集上的統計結果,“nsubj”, “dobj” 和 “nomd” 佔和觸發詞相關的句法關係的25%。因此,同時考慮句法依存結構和關係標籤對ED非常重要。


(3)GCN

近期,有許多使用GCN處理句法依存結構的方法,提升了ED的性能。這些方法比不使用句法結構信息的,基於序列的模型表現更好。

然而,這些基於GCN的模型忽視了特定的句法依存關係標籤。爲了將關係標籤引入到GCN中,能想到的最直接的方法就是使用不同的針對特定關係(relation-specific)的卷積核,編碼不同類型的句法關係。但是這一方法面臨兩個挑戰:

  1. 參數爆炸:參數的數量隨着關係類型的數量快速增長。如果模型的參數量很大,則容易過擬合。這也就是現有的用於ED的基於GCN的方法忽略了特定的句法關係標籤的原因。

  2. 關係的上下文無關的表示:由於句法關係標籤編碼到了針對特定關係的卷積核參數中,每個關係標籤在整張圖中都有相同的表示。但實際上,相同的關係在不同的上下文的情況下有着不同的語義信息。因此,有着不同單詞對的關係應該有不同的上下文感知的表示(context-aware representation),這樣可以爲ED表達出不同的線索。


(4)作者提出

本文作者提出RA-GCN模型,同時解決了以上的所有挑戰。

爲了建模單詞間的關係並且避免參數爆炸,作者將傳統的鄰接矩陣的元素擴展成一個向量,構成了關係感知(relation-aware)的鄰接張量,作爲對應關係的表示。張量中的元素初始化成句法關係標籤的嵌入表示。

由於每種類型的句法關係是通過標籤嵌入不是GCN卷積核來區分的,所以可以減少參數量

作者設計了一個關係感知(relation-aware)的聚合模型,通過特定的關係標籤將句法關聯的單詞聚合。

然後還設計了一個上下文感知(context-aware)的關係更新模型,更新有上下文語義信息的關係表示,使得每個單詞對間的關係都有自己的上下文感知的表示。

這兩個模型分別更新了單詞和關係的表示,並且它們相互促進。


(5)貢獻

本文貢獻總結如下

  • 爲ED提出RA-GCN模型,將特定的句法關係引入到GCN,是第一個在GCN中同時使用句法依存結構和關係標籤的方法。

  • 設計了關係感知的聚合模型,聚合特定關係標籤連接的單詞的句法信息。設計了上下文感知的關係更新模型,對關係表示進行更新。

  • ACE2005數據集上進行了實驗,結果表明RA-GCN實現了新的state-of-the-art


3 相關工作


(1)早期的模型使用精心設計的詞彙和句法特徵,將ED視爲分類問題,這些方法被稱爲基於特徵的模型。這些方法依賴於有區別能力的特徵,不同的特徵設計策略會對模型的性能產生影響。

(2)近期的研究表明基於神經網絡的ED模型效果優於基特徵的模型。有學者引入CNN,不使用設計的特徵捕獲句子中的線索。還有學者引入RNN捕獲每個單詞的序列化的上下文信息。有學者通過有監督的attention,充分利用了事件參數信息,提升了對觸發器的檢測效果。有學者提出了gated multi-level attention和hierarchical tagging來同時檢測一個句子中的多個事件。

(3)基於序列的神經網絡模型沒有考慮到句法依存信息。Sha等人在BiLSTM中家兔依存橋,有助於同時利用句法樹結構和序列結構。

GCN的興起使得句子的句法結構信息可以根據單詞間的句法關聯,構建成圖的形式。然而由於參數的限制,這些基於GCN的模型都忽視了特定的句法關係標籤

本文提出的模型可以有效地利用句法關係標籤,並且提升ED的效果。


4 方法


模型的整體架構如圖2所示:


4.1 Preliminary


(1)GCN

GCN是CNN向編碼圖結構的擴展。有nn個節點的圖被表示成鄰接矩陣ARn×n\mathbf{A}\in \mathbb{R}^{n\times n}。圖卷積的目的是從圖上的鄰居節點聚合信息,第ll層GCN可表示成如下的形式:

其中H(l1)Rn×d\mathbf{H}^{(l-1)}\in \mathbb{R}^{n\times d}是節點表示(輸入),nn表示節點數量,dd表示維度。WRd×h\mathbf{W}\in \mathbb{R}^{d\times h}是可學習的卷積核,hh表示隱層的GCN節點表示的維度,σ\sigma是激活韓式ReLU。


(2)任務描述

ED的目的是對單詞/短語(事件觸發器)進行定位並分類,該單詞/短語表示了一個事件的發生,分類對應的類別爲事件的類型。

我們將ED視爲一個序列標註任務,句中的每個單詞都遵循 “BIO” 的標註模型:“O”, “B-EventType”, “I-EventType”。

  • “O” 表示對應的單詞沒有觸發任何時間

  • “EventType” 表示特定類型的事件,“B-EventType” 表示單詞是一個事件觸發器的起始“I-EventType” 表示單詞是事件觸發器的單詞。


4.2 Embedding Layer


嵌入層的目的是將每個單詞轉換成實值的嵌入向量,向量中包含了語義信息單詞的實體類型信息。

詞嵌入(word embedding)是爲了捕獲到有意義的語義信息。作者使用的是在 NYT 語料庫上使用 Skip-gram 模型得到的預訓練的詞嵌入。

句子中的實體使用 BIO 進行標註,作者使用實體類型的 lookup table,將每個實體類型標籤轉換成了實值嵌入。

每個單詞wiw_i都表示成了其單詞嵌入wi\mathbb{w}_i和實體類型嵌入ei\mathbb{e}_i的拼接,即wiw_i的嵌入xi=[wi;ei]Rdw+de\mathbb{x}_i = [\mathbb{w}_i; \mathbb{e}_i]\in \mathbf{R}^{d_w+d_e},其中dw,ded_w, d_e分別表示單詞嵌入和實體類型嵌入的維度。


4.3 BiLSTM Layer


使用BiLSTM Layer捕獲每個單詞的上下文信息,一個LSTM單元可以表示成如下的形式:

其中,hiR2×dh\mathbf{h}_i\in \mathbb{R}^{2\times d_h}dhd_h小時LSTM單元的隱層維度。BiLSTM從前和後兩個方向進行了LSTM,可以捕獲到單詞在每個時間點的過去和未來的上下文信息。

BiLSTM層的輸出是將雙向的表示拼接起來,用於初始化RA-GCN層輸入的單詞表示


4.4 Relation-Aware GCN


爲了引入句法結構信息,使用基於GCN的ED方法根據每個句子的句法依存解析,將其轉化爲一張圖。句中的每個單詞被視爲圖上的一個節點,並且爲句子使用boolean類型的鄰接矩陣A\mathbf{A}表示句中節點之間的句法關聯。句法關聯在鄰接矩陣A\mathbf{A}中並不互相區分。

爲了建模節點間的關係,作者將鄰接矩陣中的元素擴展成多維度的向量。構建了一個關係感知的鄰接張量ERn×n×p\mathbf{E}\in \mathbf{R}^{n\times n\times p},張量中的元素是pp維的關係表示向量,pp也可以理解成是E\mathbf{E}的通道數。

關係感知的鄰接張量是根據單詞間的句法關係進行初始化的,引入了一個lookup table將每種類型的句法關係標籤轉換成一個實值嵌入。

若單詞i,ji, j間存在一種句法關聯,則Eij\mathbf{E}_{ij*}就初始化爲從lookup table中獲得的相應的pp維嵌入;否則的話就是pp維的零向量。

我們從句子中構造的圖是無向圖,也就是Eij\mathbf{E}_{ij*}Eji\mathbf{E}_{ji*}初始化成相同的值。對於依存樹中根節點(ROOT)的單詞,給它自己添加一個有着ROOT關係的自環(self loop)。

RA-GCN的目的是爲每個單詞生成有表示能力的節點表示。RA-GCN的每一層都由兩部分組成:(1)關係感知的聚合模塊(2)上下文感知的關係更新模塊。並且這兩個模塊相互促進。兩個模塊描述如下:


4.4.1 關係感知的聚合模塊


關係感知的聚合模塊(Relation-Aware Aggregation Module)目的是:通過關係感知的鄰接張量E\mathbf{E}聚合有句法關聯的單詞,爲每個節點生成表示

E\mathbf{E}中的元素是單詞間的關係表示,因此在聚合時可以嵌入關係信息。

關係表示的每一維可看成張量E\mathbf{E}的一個通道,並且RA-GCN分別從不同的通道聚合單詞信息。關係感知的聚合操作定義如下:

其中,E(l1)Rn×n×p\mathbf{E}^{(l-1)}\in \mathbb{R}^{n\times n\times p}是初始化/上一層 RA-GCN 得到的關係感知的鄰接張量;Ei(l1)Rn×n\mathbf{E}^{(l-1)}_{**i}\in \mathbb{R}^{n\times n}E(l1)\mathbf{E}^{(l-1)}的第ii個通道片,nn是句子中的單詞數量;H(l1)Rn×d\mathbf{H}^{(l-1)}\in \mathbb{R}^{n\times d}是輸入的單詞表示,dd表示單詞的輸入維度;WRd×h\mathbf{W}\in \mathbb{R}^{d\times h}是可學習的過濾器,hh是RA-GCN的隱層維度。採用了 Average Pooling,因爲它可以處理到來自所有通道的信息 。


4.4.2 上下文感知的關係更新模塊


我們使用鄰接單詞表示更新鄰接張量中的關係表示,以得到上下文感知的關係表示。具體操作定義如下:

其中\oplus表示位拼接操作;hil,hjl\mathbf{h}^l_i, \mathbf{h}^l_j表示單詞i,ji, j在當前的RA-GCN層聚合後的表示;Eij(l1)Rp\mathbf{E}^{(l-1)}_{ij*}\in \mathbb{R}^p是單詞iijj間的關係表示;WuR(2×h+p)×p\mathbf{W}_u\in \mathbf{R}^{(2\times h+p)\times p}是可學習的轉換矩陣,hh是RA-GCN的隱層維度。

該操作將上下文的語義信息句法關係嵌入結合,從而表達了關係背後的不同信息。

更新後的關係感知的鄰接張量作爲下一層RA-GCN的輸入,以進行關係感知的聚合。


4.4.3 分類層


最終,將每個節點的表示輸入到一個全連接網絡中,使用softmax計算標籤的分佈p(th)p(t|\mathbf{h})

其中,Wt\mathbf{W}_t將單詞表示h\mathbf{h}轉換成了針對每個事件標籤的分值,bt\mathbf{b}_t是偏置項。softmax之後,概率最大的標籤作爲分類結果


4.6 Bias Loss Function


因爲 “O” 標籤的數量遠大於 EventType標籤的數量,所以使用有偏的損失函數來加強EventType標籤在訓練過程中的影響。有偏的損失函數如下所示:

其中NsN_s表示句子數,nin_i是第ii個句子的單詞數;I(O)I(O)是一個轉換函數,若單詞的標籤是 EventType 標籤中的一個,則該值爲0,否則爲1;α\alpha是有偏的權重,有助於增強 EventType 標籤的影響。


5 實驗


數據集:ACE2005

對比方法

(1)基於特徵的方法:MaxEnt,CrossEntity

(2)基於序列的神經網絡模型:

  • DMCNN:使用動態的 multi-pooling 卷積網;

  • JRNN:使用雙向的RNN;

  • ANN-AugAtt:描述事件的時間、地點、人物的單詞注意力分值更高;

  • dbRNN:對BiLSTM添加帶權重的依賴弧,以同時使用樹結構和序列結構;

  • HBTNGMA:使用 hierarchical 和 bias tagging 網絡檢測一個句子中的多個事件。

(3)基於GCN的模型

  • GCN-ED:在句法依存樹結構上使用GCN以提升效果;

  • JMEE:使用帶有self-attention的GCN和 highway network ;

  • MOGANED:使用帶有 aggregated attention的GCN來結合來源於不同GCN層的multi-order單詞表示;

  • RGCN:使用特定關係的鄰接矩陣和卷積核建模關係數據,用於知識補全。

實驗結果

(1)表1展示了各個方法在事件檢測任務下的實驗結果。

(2)表2展示了消融實驗的結果。

1)-RAAM:研究句法標籤是否有助於RA-GCN效果的提升

作者將關係感知的鄰接張量中的每個元素初始化爲同一表示,意味着只使用句法依存結構

2)-MdR:研究多維度的關係表示是否有助於增強模型捕獲信息的能力

作者將關係表示的維度設爲1,意味着關係感知的鄰接張量ERn×n×p\mathbf{E}\in \mathbb{R}^{n\times n\times p}壓縮成了ERn×n×1\mathbf{E}\in \mathbb{R}^{n\times n\times 1}

3)-CARUM:研究上下文感知的關係表示是否有助於效果的提升

作者去掉了RA-GCN中的上下文感知的關係更新模塊。

4)-RAAM & CARUM:研究 “relation” 是否有助於GCN更好地工作

作者同時去掉了關係感知的聚合模塊 和 上下文感知的關係更新模塊,僅僅使用普通的GCN。

5)-BiLSTM:去掉了RA-GCN之前的BiLSTM


(3)圖3表示了F1值隨關係表示的維度的變化

(4)示例學習的可視化結果

以句子 “Putin last visited Bush at his Texas ranch in November 2001” 爲例。

7 總結


本文提出了用於事件檢測(ED)的關係感知的圖卷積網絡(RA-GCN),模型利用了句法依存關係標籤建模了單詞間的關係

在ED的標準數據集ACE2005上進行了實驗,本文的方法在F1值上超越了所有baseline模型。

未來的工作:考慮RA-GCN中有向的句法依賴;將RA-GCN模型用於關係抽取和其他信息抽取的子任務


現有基於GCN的ED方法只使用了句法依存結構,而忽略了句法關係標籤

但是句法關係標籤的信息對觸發詞的發現有着重要的作用,因爲和觸發詞相關的句法關係標籤的分佈是不均勻的。例如,在ACE2005數據集中,“nsubj”, “dobj” 和 “nomd” 佔和觸發詞相關的句法關係的25%。

將關係納入GCN考慮的直接想法是爲每種關係使用不同的卷積核,但這會帶來參數爆炸的問題,並且學習到的關係表示是唯一的,是上下文無關的

爲了建模節點間的關係,作者將鄰接矩陣擴展成關系感知的鄰接張量,並根據單詞之間的句法關係對其進行初始化

提出RA-GCN,由關係感知的聚合模塊上下文感知的關係更新模塊組成。前者是從張量的不同通道聚合單詞信息,用於更新節點的表示後者是將上下文的語義信息句法關係嵌入結合,用於更新關係的表示

因此實現了對句法關係標籤的應用,提升了ED的性能。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章