論文題目:Event Detection with Multi-Order Graph Convolution and Aggregated Attention
論文來源:EMNLP 2019
論文鏈接:https://www.aclweb.org/anthology/D19-1582/
代碼鏈接(非官方):https://github.com/wzq016/MOGANED-Implementation
關鍵詞:事件檢測,GCN,GAT,attention,句法依存結構,多階句法關係
1 摘要
對於事件檢測(ED)任務,在句法依存樹上進行句法關係表示的學習可以更好地捕獲候選觸發詞間和實體間的關聯。但是現有的方法僅僅使用了依存樹中一階的句法關係(例如 the arcs)來進行觸發詞的識別。
本文提出用於ED任務的新方法,MOGANED(Multi-Order Graph Attention Network based method for Event Detection)模型:基於句法依存樹使用GCN方法對其建模,並使用attention機制聚合句中多階的句法信息。
實驗證明了本文方法和state-of-the-art相比的優越性。
2 引言
ED任務的目的是識別出句子中的事件觸發詞並對其分類。如圖1所示,ED需要識別出"fired"是"Attack"類型事件的觸發詞。
基於句法依存樹的方法,可以利用句子對應的句法依存樹中的句法關聯,捕獲到不同候選觸發詞間的關聯以及和其相關的實體信息。
觸發詞和相關實體間的句法關係可以是一階的,表現爲依存樹中的直接弧(direct arcs)。它們之間的關係也可以是高階的(在依存樹上的路徑大於1跳)。
在ACE 2005數據集上統計得知,51%的和事件相關的實體到其對應的觸發詞和相關實體的最短距離大於1。如圖1所示,“fired”-“evidence”-“became”-“blood”-“soldiers”,需要4跳。
然而,現有的基於依存樹的方法只使用了一階的句法關係。雖然,它們採用堆疊多層GCN的方式來捕獲高階的句法關係,但是,由於GCN的過平滑問題,隨着層數的增加,相鄰節點的表示會趨於一致。
爲了避免這一問題,本文提出MOGANED(Multi-Order Graph Attention Network based method for Event Detection)模型。MOGANED模型使用了一階句法圖和高階句法圖,利用了候選觸發詞的多階表示。爲了計算每個詞的多階表示,作者使用了GAT來衡量該詞不同階鄰居的重要性,並分配不同的權重。然後使用注意力機制對多階的表示進行加權求和。
實驗和state-of-the-art方法對比,證明了本文方法在準確率和F1兩個度量上的優越性。本文還是第一個將GAT用於ED的工作。
3 模型
將ED視爲多類別分類問題。令表示長爲的句子。由於事件觸發器可能包含多個單詞,因此使用BIO模式對句子做標註。標籤數爲,是事件類型數。
模型由3個模塊組成:
(1)詞編碼模塊:將輸入的句子編碼成向量序列;
(2)多階圖注意力網絡(multi-order GAT):在多階的句法圖上應用GAT;
(3)注意力聚合模塊:爲多階的表示分配不同的注意力權重,將其聚合,得到單詞的表示,用於標籤的預測。
模型的整體結構如下圖所示(最高階爲3):
## 3.1 詞編碼模塊
和現有的方法操作基本相同,將詞嵌入、實體類型嵌入、POS-tagging嵌入、位置嵌入級聯,得到token 的嵌入向量。將輸入的句子轉換爲向量序列。
由於每個單詞僅僅利用它在依存圖上的鄰居進行更新,和先前的方法一樣,作者使用了BiLSTM將與其上下文編碼成,作爲多階GAT模塊的輸入:
3.2 多階圖注意力網絡
每個句法依存樹都可以用鄰接矩陣表示爲一階句法圖。
一階句法圖的鄰接矩陣包括3個維度均爲的子矩陣:。其中,若和在句法樹上有連邊,則,否則爲0;;是單位矩陣。
階句法圖的鄰接矩陣爲,其中。記錄了中所有的跳路徑。。分別用表示。
多階GAT模塊使用多個並行的GAT層,得到多階句法圖的表示,並且在每個句法圖進行卷積的過程中,權衡了每個詞不同鄰居的重要性並分配權重。
第階句法圖的表示是通過子圖的表示計算得到的:
其中,是圖注意力卷積函數,是元素級別的相加操作。
是指數線性單元(ELU);分別是對於的權重矩陣和偏置項;是更新時鄰居的歸一化後的權重。計算如下:
其中,;是在子圖上的鄰居集合;是LeakyReLu函數;是權重矩陣。
在經過圖注意力卷積之後,每個候選觸發詞都得到了一組多階的表示,是模塊中使用到的最高的階數。
3.3 注意力聚合模塊
使用注意力機制對上一步得到的每個詞的多階表示進行聚合:
其中,是歸一化後的單詞的階圖表示,計算如下:
其中,,分別爲權重矩陣和偏置項;是隨機初始化的上下文向量,捕獲了每一階圖表示的重要性信息。
最後,使用聚合後的表示來預測單詞的觸發詞標籤:
其中定義了單詞標籤爲的概率;,分別是權重矩陣和偏置項。
3.4 有偏的損失函數
由於標籤爲的單詞數和有事件標籤的單詞數相比太多了,所以使用有偏的損失函數來增強事件標籤在訓練時的影響:
其中,是句子數;是中的單詞數;如果單詞標籤爲,則爲1,否則爲0;是大於1的參數。
4 實驗
數據集:ACE 2005
對比方法:
- CrossEvent:使用文檔級別的信息
- DMCNN:建立了dynamic multi-pooling的CNN模型
- JRNN:使用雙向RNN和人爲設計的特徵
- DEEB-RNN:使用有監督的層級注意力以及文檔級別的信息
- dbRNN:在BiLSTM網絡中添加句法邊以增強模型
- GCN-ED:基於GCN使用argument pooling機制用於ED
- JMEE:使用GCN,highway網絡和self-attention
實驗結果
和state-of-the-art的方法相比,在準確率和F1值兩個度量中取得了最優。
對MOGANED模型進行消融實驗:
- MOGANED-First:只使用一階句法圖();
- MOGANED-GCN:使用傳統的GCN而不使用GAT;
- MOGANED-Mean:使用mean pooling作爲對單詞多階表示的注意力聚合。
5 總結
本文提出MOGANED模型用於事件檢測(ED)任務,模型使用GAT對多階的表示進行了建模,並應用注意力機制聚合多階表示以更好地捕獲依存樹中的上下文信息。實驗結果顯示其在準確率和F1值兩個度量上實現了最優。
2020有學者提出新的模型RA-GCN,在F1值上超越了MOGANED,但沒有在準確率上超越超越MOGANED。
模型針對現有的基於GCN的ED方法的同一缺點:只能直接利用一階的句法關係,雖然堆疊多層GCN可以捕獲多階的句法關係,但是GCN有過平滑的問題,層數太多的話相鄰節點的表示會趨於一致。
MOGANED模型的思想很直接,將鄰接矩陣根據原始邊、反向邊、自環分爲3個子矩陣,對這些矩陣求次冪就得到了有路徑的鄰接矩陣。在~階的句法圖上使用GAT,就得到了多階句法圖的表示。然後再使用注意力機制對單詞在多階句法圖上的表示進行聚合,得到單詞最終的表示,就可以用於分類預測了。
和以往的基於GCN的方法一樣,MOGANED模型只將鄰接矩陣根據原始邊、反向邊、自環分爲了3個子矩陣,因此在建模時沒有考慮到句法關係標籤的多樣性,只利用了句法結構的信息。(RA-GCN模型兩個信息都使用到了)