論文題目：Event Detection with Multi-Order Graph Convolution and Aggregated Attention

論文來源：EMNLP 2019

論文鏈接：https://www.aclweb.org/anthology/D19-1582/

代碼鏈接（非官方）：https://github.com/wzq016/MOGANED-Implementation

關鍵詞：事件檢測，GCN，GAT，attention，句法依存結構，多階句法關係

文章目錄

1 摘要

對於事件檢測（ED）任務，在句法依存樹上進行句法關係表示的學習可以更好地捕獲候選觸發詞間和實體間的關聯。但是現有的方法僅僅使用了依存樹中一階的句法關係（例如 the arcs）來進行觸發詞的識別。

本文提出用於ED任務的新方法，MOGANED（Multi-Order Graph Attention Network based method for Event Detection）模型：基於句法依存樹使用GCN方法對其建模，並使用attention機制聚合句中多階的句法信息。

實驗證明了本文方法和state-of-the-art相比的優越性。

2 引言

ED任務的目的是識別出句子中的事件觸發詞並對其分類。如圖1所示，ED需要識別出"fired"是"Attack"類型事件的觸發詞。

基於句法依存樹的方法，可以利用句子對應的句法依存樹中的句法關聯，捕獲到不同候選觸發詞間的關聯以及和其相關的實體信息。

觸發詞和相關實體間的句法關係可以是一階的，表現爲依存樹中的直接弧（direct arcs）。它們之間的關係也可以是高階的（在依存樹上的路徑大於1跳）。

在ACE 2005數據集上統計得知，51%的和事件相關的實體到其對應的觸發詞和相關實體的最短距離大於1。如圖1所示，“fired”-“evidence”-“became”-“blood”-“soldiers”，需要4跳。

然而，現有的基於依存樹的方法只使用了一階的句法關係。雖然，它們採用堆疊多層GCN的方式來捕獲高階的句法關係，但是，由於GCN的過平滑問題，隨着層數的增加，相鄰節點的表示會趨於一致。

爲了避免這一問題，本文提出MOGANED（Multi-Order Graph Attention Network based method for Event Detection）模型。MOGANED模型使用了一階句法圖和高階句法圖，利用了候選觸發詞的多階表示。爲了計算每個詞的多階表示，作者使用了GAT來衡量該詞不同階鄰居的重要性，並分配不同的權重。然後使用注意力機制對多階的表示進行加權求和。

實驗和state-of-the-art方法對比，證明了本文方法在準確率和F1兩個度量上的優越性。本文還是第一個將GAT用於ED的工作。

3 模型

將ED視爲多類別分類問題。令 $W=w_1, w_2, ..., w_n$ 表示長爲 $n$ 的句子。由於事件觸發器可能包含多個單詞，因此使用BIO模式對句子做標註。標籤數爲 $2L+1$ ， $L$ 是事件類型數。

模型由3個模塊組成：

（1）詞編碼模塊：將輸入的句子編碼成向量序列；

（2）多階圖注意力網絡（multi-order GAT）：在多階的句法圖上應用GAT；

（3）注意力聚合模塊：爲多階的表示分配不同的注意力權重，將其聚合，得到單詞的表示，用於標籤的預測。

模型的整體結構如下圖所示（最高階爲3）：

## 3.1 詞編碼模塊

和現有的方法操作基本相同，將詞嵌入 $word_i$ 、實體類型嵌入 $et_i$ 、POS-tagging嵌入 $pos_i$ 、位置嵌入 $ps_i$ 級聯，得到token $w_i$ 的嵌入向量 $x_i$ 。將輸入的句子 $W$ 轉換爲向量序列 $X=x_1, x_2, ..., x_n$ 。

由於每個單詞僅僅利用它在依存圖上的鄰居進行更新，和先前的方法一樣，作者使用了BiLSTM將 $X$ 與其上下文編碼成 $P=p_1, p_2, ..., p_n$ ，作爲多階GAT模塊的輸入：

3.2 多階圖注意力網絡

每個句法依存樹都可以用鄰接矩陣 $A$ 表示爲一階句法圖。

一階句法圖的鄰接矩陣 $A$ 包括3個維度均爲 $n\times n$ 的子矩陣： $A_{along}, A_{rev}, A_{loop}$ 。其中，若 $w_i$ 和 $w_j$ 在句法樹上有連邊，則 $A_{along}(i, j)=1$ ，否則爲0； $A_{rev}=A^T_{along}$ ； $A_{loop}$ 是單位矩陣。

$k$ 階句法圖的鄰接矩陣爲 $A^k_{subg}=(A_{subg})^k$ ，其中 $subg\in {\{along, rev, loop}\}$ 。 $A^k_{subg}$ 記錄了 $A_{subg}$ 中所有的 $k$ 跳路徑。 $A^k_{loop}=A_{loop}$ 。分別用 $a^k, b^k, c^k$ 表示 $A^k_{along}, A^k_{rev}, A^k_{loop}$ 。

多階GAT模塊使用多個並行的GAT層，得到多階句法圖的表示，並且在每個句法圖進行卷積的過程中，權衡了每個詞不同鄰居的重要性並分配權重。

第 $k$ 階句法圖 $A^k$ 的表示 $h^k_i$ 是通過 $A^k$ 子圖的表示計算得到的：

其中， $f(\cdot)$ 是圖注意力卷積函數， $\oplus$ 是元素級別的相加操作。

$\sigma$ 是指數線性單元（ELU）； $W_{a, k},\epsilon_{a, k}$ 分別是對於 $a^k$ 的權重矩陣和偏置項； $u_{ij}$ 是更新 $w_i$ 時鄰居 $w_j$ 的歸一化後的權重。 $u_{ij}$ 計算如下：

其中， $e_{ij}=\gamma(W_{comb}[W_{att}p_i || W_{att}p_j])$ ； $\mathcal{N}_i$ 是 $w_i$ 在子圖上的鄰居集合； $\gamma$ 是LeakyReLu函數； $W_{comb}, W_{att}$ 是權重矩陣。

在經過圖注意力卷積之後，每個候選觸發詞 $w_i$ 都得到了一組多階的表示 $h^k_i, k\in [1, K]$ ， $K$ 是模塊中使用到的最高的階數。

3.3 注意力聚合模塊

使用注意力機制對上一步得到的每個詞的多階表示 $h^k_i$ 進行聚合：

其中， $v^k_i$ 是歸一化後的單詞 $w_i$ 的 $k$ 階圖表示，計算如下：

其中， $s^j_i=tanh(W_{awa}h^j_i+\epsilon_{awa})$ ， $W_{awa}, \epsilon_{awa}$ 分別爲權重矩陣和偏置項； $ctx$ 是隨機初始化的上下文向量，捕獲了每一階圖表示的重要性信息。

最後，使用聚合後的表示 $h_i$ 來預測單詞 $w_i$ 的觸發詞標籤：

其中 $y^q_i$ 定義了單詞 $w_i$ 標籤爲 $q$ 的概率； $O_i=w_oh_i+\epsilon_o$ ， $w_o, \epsilon_o$ 分別是權重矩陣和偏置項。

3.4 有偏的損失函數

由於標籤爲 $O$ 的單詞數和有事件標籤的單詞數相比太多了，所以使用有偏的損失函數來增強事件標籤在訓練時的影響：

其中， $N_s$ 是句子數； $N_{i, w}$ 是 $s_i$ 中的單詞數；如果單詞標籤爲 $O$ ，則 $I(O)$ 爲1，否則爲0； $\lambda$ 是大於1的參數。

4 實驗

數據集：ACE 2005

對比方法：

CrossEvent：使用文檔級別的信息
DMCNN：建立了dynamic multi-pooling的CNN模型
JRNN：使用雙向RNN和人爲設計的特徵
DEEB-RNN：使用有監督的層級注意力以及文檔級別的信息
dbRNN：在BiLSTM網絡中添加句法邊以增強模型
GCN-ED：基於GCN使用argument pooling機制用於ED
JMEE：使用GCN，highway網絡和self-attention

實驗結果

和state-of-the-art的方法相比，在準確率和F1值兩個度量中取得了最優。

對MOGANED模型進行消融實驗：

MOGANED-First：只使用一階句法圖（ $K=1$ ）；
MOGANED-GCN：使用傳統的GCN而不使用GAT；
MOGANED-Mean：使用mean pooling作爲對單詞多階表示的注意力聚合。

5 總結

本文提出MOGANED模型用於事件檢測（ED）任務，模型使用GAT對多階的表示進行了建模，並應用注意力機制聚合多階表示以更好地捕獲依存樹中的上下文信息。實驗結果顯示其在準確率和F1值兩個度量上實現了最優。

2020有學者提出新的模型RA-GCN，在F1值上超越了MOGANED，但沒有在準確率上超越超越MOGANED。

模型針對現有的基於GCN的ED方法的同一缺點：只能直接利用一階的句法關係，雖然堆疊多層GCN可以捕獲多階的句法關係，但是GCN有過平滑的問題，層數太多的話相鄰節點的表示會趨於一致。

MOGANED模型的思想很直接，將鄰接矩陣根據原始邊、反向邊、自環分爲3個子矩陣，對這些矩陣求 $k$ 次冪就得到了有 $k-hop$ 路徑的鄰接矩陣。在 $1$ ~ $K$ 階的句法圖上使用GAT，就得到了多階句法圖的表示。然後再使用注意力機制對單詞在多階句法圖上的表示進行聚合，得到單詞最終的表示，就可以用於分類預測了。

和以往的基於GCN的方法一樣，MOGANED模型只將鄰接矩陣根據原始邊、反向邊、自環分爲了3個子矩陣，因此在建模時沒有考慮到句法關係標籤的多樣性，只利用了句法結構的信息。（RA-GCN模型兩個信息都使用到了）

【論文解讀 EMNLP 2019 | MOGANED】ED with Multi-Order Graph Convolution and Aggregated Attention

文章目錄

1 摘要

2 引言

3 模型

3.2 多階圖注意力網絡

3.3 注意力聚合模塊

3.4 有偏的損失函數

4 實驗

5 總結

.Net 8.0 下的新RPC，IceRPC之試試的新玩法"打洞"

完美替代postman的軟件

Vue mockjs mock.js

關於遊戲付費的一點想法

我通過CKA和CKS啦！

安裝chromadb注意事項

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

fake news相關 2019-2020 五篇論文閱讀

【論文解讀 NIPS 2019 | GTNs】Graph Transformer Networks

【論文解讀 EMNLP 2018 | JMEE】Jointly Multiple EE via Attention-based Graph Information Aggregation

【論文解讀 arXiv 2020 | RA-GCN】Event Detection with Relation-Aware Graph Convolutional Networks

【轉載】關係抽取之遠程監督算法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結