#####豪豪豪豪######清華出品的兩個模型做事件檢測和事件元素抽取任務

論文題目：Event Detection with Trigger-Aware Lattice Neural Network

論文來源：EMNLP 2019 清華

論文鏈接：https://www.aclweb.org/anthology/D19-1033/

代碼鏈接：https://github.com/thunlp/TLNN

關鍵詞：事件檢測，word-trigger不匹配，trigger多義，LSTM

文章目錄
1 摘要
2 引言
3 模型
3.1 分級的表示學習
3.2 觸發詞感知的特徵抽取
3.3 序列標註
4 實驗
5 總結
1 摘要
本文解決的是事件檢測問題（ED），ED的目的是在文本中識別出事件觸發詞並將其分類成正確的事件類型。

對於ED任務，基於神經網絡的方法已經成爲主流。但是對於沒有分隔符的語言，例如中文，就會面臨兩個問題：

（1）基於單詞的模型存在嚴重的word-trigger不匹配問題，限制了模型的性能；

（2）即使能夠準確定位trigger，一詞多義現象的存在仍會影響到trigger分類的性能。

爲了同時解決這兩個問題，本文提出TLNN模型（Trigger-aware Lattice Neural Network）：

（1）模型可以動態地合併詞和字符信息，從而避免trigger-word不匹配問題；

（2）對於多義的字或詞，使用外部語言知識庫對它的所有含義進行建模。

實驗結果顯示，本文的模型有效地處理了上述兩個問題，並超越了state-of-the-art。

2 引言

事件檢測分爲兩個子任務：觸發詞識別（TI）和觸發詞分類（TC）。這兩個子任務分別面臨着一個挑戰：

（1）trigger-word不匹配問題（TI）

主流的方法大多是基於單詞的，對於沒有天然分隔符的語言（例如中文），分詞操作是一項關鍵的預處理步驟。但是這些基於單詞的方法忽視了一個重要的問題：觸發詞可能是一個詞的一部分或者包含多個詞。

例如圖1 a所示，“射殺”雖然是一個詞，但“射”和“殺”是兩個觸發詞。；“示威遊行”是由兩個詞組成的一個觸發詞。在這種情況下基於單詞的方法不能準確識別出觸發詞。

（2）一詞多義問題（TC）

有多種含義的觸發詞會被分成不同的事件類別。如圖1 b所示，“釋放”可以表示兩種完全不同的事件類型：Attack和Release-Parole。

表1展示了ACE 2005和KBP 2017數據集在上述兩種問題上的統計結果：

可以看出trigger-word不匹配和一詞多義問題在兩個數據集中均佔據了不小的比重。

本文提出TLNN模型同時解決上述兩個問題。

爲了避免NLP分詞工具帶來的誤差傳播，作者使用字符作爲輸入序列的基本單元。

另外，還使用了HowNet作爲外部知識庫，對多義的中英文詞彙進行標註，以獲得sense-level的信息。

然後，作者設計了trigger-aware lattice LSTM作爲模型的特徵提取器，並同時利用到了character-level, word-level, sense-level的信息。

爲了解決trigger-word不匹配問題，作者對每個單詞使用short cut paths連接起始字符和結束字符的cell state。注意此處的paths是sense-level的，也就是說以特定字符作爲結尾的詞的所有詞義信息，將會流入到該字符的memory cell中。由於利用了不同粒度的信息（character, word, sense），一詞多義問題可以較好地緩解。

3 模型
本文將ED任務看成是序列標註任務，對於每個字符，模型應該能識別出它是否是觸發詞的一部分，並將觸發詞正確分類。

模型的結構如圖2所示：

模型由3個部分組成：

（1）分級的表示學習（Hierarchical Representation Learning），以無監督的方式學習到character, word和sense級別的嵌入向量；

（2）觸發詞感知的特徵抽取（Trigger-aware Feature Extractor），使用樹結構的LSTM模型，自動抽取出不同級別的語義特徵；

（3）序列標註（Sequence Tagger），對每個候選的字符計算其是觸發詞的概率。

3.1 分級的表示學習
（1）字符級別（character level）

給定輸入序列S={c1,c2,...,cN} S={\{c_1, c_2, ..., c_N}\}S={c
1

,c
2

,...,c
N

}，ci c_ic
i

代表序列中的第i ii個字符。使用Skip-Gram方法，爲每個字符生成嵌入向量：

（2）詞級別（word level）

給定輸入序列S={w1,w2,...,wM} S={\{w_1, w_2, ..., w_M}\}S={w
1

,w
2

,...,w
M

}，wi w_iw
i

表示第i ii個詞。使用b bb和e ee兩個下標表示一個詞的起始和結束，詞嵌入爲：

（3）詞義級別（sense level）

然而，Skip-Gram方法將每個詞僅僅映射成了一個嵌入，忽視了多義詞的存在。好的表示應該能表示更深的語義信息。因此，作者使用了HowNet作爲外部知識庫，得到字符或詞的多義信息。

對於每個字符c cc和每個詞w ww，在HowNet上可能被標註上了多種意思：sen(ci)∈S(c) sen^{(c_i)}\in S^{(c)}sen
(c
i

)
∈S
(c)
，sen(wi)∈S(w) sen^{(w_i)}\in S^{(w)}sen
(w
i

)
∈S
(w)
。因此，可以通過使用Skip-gram聯合學習word embedding和sense embedding得到senses的嵌入。

其中，sen(ci)j sen^{(c_i)}_jsen
j
(c
i

)

和sen(wb,e)j sen^{(w_{b, e})}_jsen
j
(w
b,e

)

分別表示字符ci c_ic
i

和詞wb,e w_{b, e}w
b,e

的第j jj個sense。scij s^{c_i}_js
j
c
i



和swb,ej s^{w_{b, e}}_js
j
w
b,e



表示ci c_ic
i

和wb,e w_{b, e}w
b,e

的嵌入。

3.2 觸發詞感知的特徵抽取
這一模塊是模型的核心部分。訓練結束後，抽取器輸出的是輸入句子的hidden state向量h \mathbf{h}h。

（1）常見的LSTM

LSTM在RNN上增加了門（gates）來控制信息：1）輸入門i ii；2）輸出門o oo；3）遺忘門f ff。這些門共同控制了哪些信息要保留、遺忘和輸出，並且三個門都有相對應的權重矩陣。當前的cell state c cc記錄了所有流到當前時間的歷史信息。因此，基於字符級別的LSTM函數如下：

（2）Trigger-Aware Lattice LSTM

是LSTM和lattice LSTM的擴展。

假定字符和詞有K KK個含義，第i ii個字符ci c_ic
i

的第j jj個含義的嵌入爲scij s^{c_i}_js
j
c
i



。

1）整合字符的多義信息

使用附加的LSTMCell整合字符的所有含義，因此多義字符ci c_ic
i

的cell gate計算如下：

其中，ccij c^{c_i}_jc
j
c
i



表示第i ii個字符的第j jj個含義的cell state，cci−1 c^{c_i-1}c
c
i

−1
是第i−1 i-1i−1個字符最終的cell state。爲了得到字符的cell state，要使用一個附加的字符含義門（character sense gate）：

然後所有的含義需要被動態整合到一個臨時的cell state，如下所示。其中，其中αcij \alpha^{c_i}_jα
j
c
i

是歸一化後的字符含義門。

2）整合詞的多義信息

式（11）通過合併字符所有的含義信息，得到了臨時的cell state c∗ci c^{*c_i}c
∗c
i


。但是，還需要考慮詞級別（word level）的信息，swb,ej s^{w_{b, e}}_js
j
w
b,e



表示詞wb,e w_{b, e}w
b,e

的第j jj個含義的嵌入。

和字符類似，使用LSTMCell計算每個單詞的cell state：

和式（10）~（12）類似，整合所有senses的cells信息，得到詞的cell state：

3）合併字符信息和詞信息

對於字符ci c_ic
i

，臨時的cell state c∗ci c^{*c_i}c
∗c
i


包含了所有sense的信息。通過式（16）也可以計算出所有以索引i ii結尾的詞的cell states，記爲{cwb,i∣b∈[1,i],wb,i∈D} {\{c^{w_{b, i}} | b\in [1, i], w_{b, i}\in \mathbb{D}}\}{c
w
b,i


∣b∈[1,i],w
b,i

∈D}（D \mathbb{D}D表示詞典）。

爲了保證對應的信息可以流到ci c_ic
i

最終的cell state，使用一個額外的門gmb,i g^m_{b, i}g
b,i
m

整合字符cells和詞cells：

字符ci c_ic
i

最終的cell state計算如下，其中αwb,i \alpha^{w_{b, i}}α
w
b,i


和αci \alpha^{c_i}α
c
i


分別是word gate和character gate歸一化後的值：

因此，最終的cell state cci c^{c_i}c
c
i

可以動態地表示多義的字符和詞。如式（7）所示，得到的 cci c^{c_i}c
c
i

再過一個輸出門，得到輸出，也就是序列標註模塊的輸入。

3.3 序列標註
ED任務被看作是一個序列標註任務，對於輸入序列S={c1,c2,...,cN} S={\{c_1, c_2, ..., c_N}\}S={c
1

,c
2

,...,c
N

}，有一個相對應的標籤序列L={y1,y2,...,yN} L={\{y_1, y_2, ..., y_N}\}L={y
1

,y
2

,...,y
N

}。每個字符對應的隱層向量h \mathbf{h}h作爲輸入，使用CRF層來進行序列標註，概率分佈計算如下：

S SS是打分函數，計算從hi h_ih
i

到標籤yi y_iy
i

的發射分數（emission score ）。WyiCRF W^{y_i}_{CRF}W
CRF
y
i



和byiCRF b^{y_i}_{CRF}b
CRF
y
i



是針對標籤yi y_iy
i

的可學習參數。

T TT是轉換函數，計算從yi−1 y_{i-1}y
i−1

到yi y_iy
i

的轉換分數（transition score）。

C \mathbb{C}C包含了在序列S SS上所有可能的標籤序列，L′ L^{'}L
′

是mathbbC mathbb{C}mathbbC中隨機的一個標籤序列。

然後使用維特比（Viterbi）算法計算出得分最高的標籤序列。

模型的損失函數如下，其中M MM是句子數，Li L_iL
i

是句子Si S_iS
i

實際的標籤序列：

4 實驗
（1）數據集：ACE2005, KBP2017

（2）評價度量：Standard micro-averaged Precision，F1，Recall

（3）對比方法

DMCNN：使用dynamic Multi-pooling的CNN抽取句子級別的特徵；
C-BiLSTM：提出卷積的Bi-LSTM用於ED任務；
HNN：設計了結合CNN和Bi-LSTM的混合的神經網絡模型；
HBTNGMA：提出Hierarchical and Bias Tagging Networks，並使用Gated Multi-level Attention Mechanisms整合句子級別和文檔級別的信息；
NPN：自動學習觸發詞的內部組成結構，以解決trigger不匹配問題。
（4）實驗結果

1、整體效果

和其他模型相比，TLNN在兩個數據集上均表現出色。這表示trigger-aware lattice structure可以提高定位觸發詞的準確性。由於使用了sense-level的信息，觸發詞的分類也更加精準。

在TI任務上，TLNN表現出了最好的效果。該模型通過用shortcut paths連接所有候選詞的當前字符，有效利用了字符信息和詞信息，避免了trigger-word不匹配問題。

在TC任務上，TLNN表現也是最好的。體現出了外部資源HowNet和動態利用sense-level信息的有效性。

2、觸發詞感知特徵抽取的有效性

設計實驗驗證觸發詞感知特徵抽取器的有效性。將triggeraware
lattice LSTM替換成標準的Bi-LSTM，得到基於字符和基於詞的baselines。

1）對於基於詞的baselines，輸入是單詞序列。使用額外的CNN和LSTM學習到字符級別的特徵。

2）對於基於字符的baselines，輸入的基本單元是字符。通過添加額外的word-level的特徵（包括bigram和softword，softword指字符所位於的詞），增強字符的表示，

這兩類baselines都能利用到字符信息和詞信息。實驗比較結果如表3所示：

實驗結果表明，觸發詞感知的特徵抽取器通過動態地結合多粒度的信息，和baselines中基於特徵的方法相比，可以有效地挖掘出更深層次的語義特徵。

3、觸發詞不匹配的影響

將兩個數據集分類兩類：匹配和不匹配。表1展示了兩個數據集word-trigger匹配和不匹配所佔的比例。

不同方法在劃分後的數據集上的Recall值表4所示：

4、觸發詞多義的影響

和NPN模型作對比，結果如表5和表6所示，TLNN - W/O Sense info表示不使用多義信息。

5、舉例

5 總結
本文提出TLNN模型解決ED問題，該模型可以同時解決trigger-word不匹配問題和trigger多義問題。

分層的表示學習和觸發詞感知的特徵抽取器使得模型有效地利用了多粒度的信息，並且學習到了深層次的語義信息。多粒度體現爲character-level, word-level, sense-level，具體表現爲先整合字符的多義信息，再整合詞的多義信息，最後將字符的信息和詞的信息整合。整合的過程中使用到了LSTM和一些額外的門。

未來工作：在有天然的分隔符和沒有分隔符的多語言上進行實驗；設計動態的機制，對sense-level的信息進行選擇，而不是直接將所有字符和詞的多義信息都納入考慮。

第二部分EAE

論文題目：HMEAE: Hierarchical Modular Event Argument Extraction

論文來源：EMNLP 2019 清華、微信AI

論文鏈接：https://www.aclweb.org/anthology/D19-1584/

代碼鏈接：https://github.com/thunlp/HMEAE

關鍵詞：事件元素抽取（EAE），概念層次，attention，BERT，CNN

文章目錄
1 摘要
2 引言
3 模型
3.1 Instance Encoder
3.2 Hierarchical Modular Attention
3.3 Argument Role Classifier
4 實驗
5 總結
參考文獻
1 摘要
本文解決的是事件元素抽取（EAE）任務。

現有的方法獨立地對每個argument進行分類，忽視了不同argument roles間的概念相關性。本文提出了HMEAE（Hierarchical Modular Event Argument Extraction）模型處理EAE任務。

作者爲概念層次（concept hierarchy）的每個基本單元設計了一個神經網絡模塊，然後使用邏輯操作，將相關的單元模塊分層地組成一個面向角色的模塊網絡（modular network），對特定的argument role進行分類。

由於許多的argument roles共享相同的高層次（high-level）的單元模塊，argument roles間的關聯就得到了利用，有助於更好地抽取出特定的事件arguments。

實驗證明了HMEAE可以有效地利用概念層次的知識，效果優於state-of-the-art baselines。

2 引言
（1）任務介紹

事件抽取（EE）通常看成由兩個子任務構成：事件檢測（ED）、事件元素抽取（EAE）。近些年來，EAE成了EE的瓶頸。

EAE的目的是識別出是事件arguments的實體並對該實體在事件中扮演的角色進行分類。

例如，在句子“Steve Jobs sold Pixar to Disney”中，“sold"觸發了Transfer-Ownership事件。EAE的目的是識別出"Steve Jobs"是一個事件元素（event argument），並且該元素的角色爲"Seller”。

（2）現有方法的不足

現有的方法都是將元素角色看成是彼此之間相互獨立的，忽視了一些元素角色和其他元素的概念相似性。

以圖1爲例，相比於"Time-within"，“Seller"在概念上和"Buyer"更接近，因爲它們共享了相同的上級概念"Person"和"Org”。概念層次可以提供額外的有關元素角色間關聯的信息，有助於元素角色的分類。

（3）作者提出

作者受先前的層次分類網絡[1~3]和神經模塊網絡（NMNs）[4]的啓發，提出了HMEAE模型，利用了概念層次的信息。

HMEAE模型採用了NMNs，模仿概念層次的結構，實現了一種靈活的網絡結構，爲更好的分類性能提供了有效的歸納偏差（inductive bias）。

如圖1所示，作者將概念分爲兩類：表示抽象概念的上級概念；細粒度的元素角色（argument roles）。一個元素角色可以從屬於多個上級概念。

如圖2所示，爲每個概念設置了一個NMN，並將其組成了一個面向角色的模塊網絡，以預測每個實體的元素角色：

1）首先，對於每個上級概念，有一個上級概念模塊（SCM）來突出和概念有關的上下文信息；

2）然後，對於每個元素角色，使用針對特定角色的邏輯模塊整合和其相對應的SCMs，以得到統一的高層次的模塊；

3）最終，使用元素角色分類器，預測實體是否扮演了給定的元素角色。

本文的模型將概念層次納入考慮有以下好處：1）高層次的模塊可以有效增強分類器性能；2）不同元素角色共享上級概念模塊。

3 模型
HMEAE模型結構如圖2所示，由3部分組成：

1）實例編碼器（instance encoder）：將句子編碼成隱層嵌入，並使用特徵聚合器將句子信息聚合成統一的實例嵌入；

2）分層模塊的注意力（hierarchical modular attention component）：生成面向角色的嵌入，以突出參數角色上級概念的信息；

3）元素角色分類器（argument role classifier）：使用實例嵌入和麪向角色的嵌入，針對該實例估計出特定元素角色的概率。

3.1 Instance Encoder
將一個實例表示爲n nn個單詞的序列：x={w1,...,t,...,a,...,wn} x={\{w_1, ..., t, ..., a, ..., w_n}\}x={w
1

,...,t,...,a,...,w
n

}，t,a t, at,a分別表示觸發詞和候選元素。觸發詞是用已有的ED模型選擇出來的，與本文無關。句子中的每個命名實體都是一個候選元素。

（1）句子編碼器

將單詞序列編碼成隱層嵌入：

其中E(⋅) E(\cdot)E(⋅)是一個神經網絡，本文使用CNN和BERT作爲編碼器。

（2）特徵聚合器

將隱層嵌入聚合成一個實例嵌入。本文使用dynamic multi-pooling作爲特徵聚合器：

其中，[⋅]i [\cdot]_i[⋅]
i

表示向量的第i ii個值；pt,pa p_t, p_ap
t

,p
a

分別是觸發詞t tt和候選元素a aa的位置。將3個piecewise max-pooling結果拼接起來作爲實例的嵌入x xx。

3.2 Hierarchical Modular Attention
如圖2所示，給定隱層嵌入{h1,h2,...,hn} {\{h_1, h_2,..., h_n}\}{h
1

,h
2

,...,h
n

}，上級概念模塊（SCM）爲每個隱層嵌入給出了一個注意力得分，以建模其與特定上級概念的相關性。

由於一個元素角色可以從屬於多個上級概念，所以使用一個邏輯模塊（logic union module）以結合源於不同上級模塊的注意力分值。

對於每個元素角色，將其上層概念模塊組合成完整的hierarchical modular attention模塊，構建面向角色的嵌入。

（1）上級概念模塊（SCM）

對於特定的上級概念c cc，使用可訓練的向量uc u_cu
c

表示其語義特徵。作者採用了多層感知機（MLP）來計算注意力分值。

首先計算隱層狀態：

然後，進行softmax操作，爲每個隱層嵌入hi h_ih
i

得到對應的注意力分值：

其中，Wa,Wb W_a, W_bW
a

,W
b

是可訓練的矩陣，並且在不同的SCM間共享。

（2）Logic Union Module

給定一個元素角色r∈R r\in \mathcal{R}r∈R，定義它的k kk個上級概念爲c1,c2,...,ck c_1, c_2, ..., c_kc
1

,c
2

,...,c
k

，針對hi h_ih
i

的相應的注意力分值爲sc1i,sc2i,scki s^{c_1}_i, s^{c_2}_i, s^{c_k}_is
i
c
1



,s
i
c
2



,s
i
c
k



。

對這些注意力分值求均值，得到面向角色（role-oriented）的注意力分值：

然後使用上面計算出的面向角色的注意力分值作爲權重，對所有的隱層嵌入進行加權求和，得到面向角色的嵌入：

3.3 Argument Role Classifier
將實例嵌入x xx和實例的面向角色的嵌入er e^re
r
作爲分類器的輸入，估計給定實例x xx的條件下，角色r∈R r\in \mathcal{R}r∈R的概率。其中，r \mathbf{r}r是元素角色r rr的嵌入。

目標函數定義如下：

4 實驗
（1）數據集

ACE 2005, TAC KBP 2016

（2）概念層次的設計

使用8個不同的上級概念，人工設計了概念層次。

（3）對比方法

1）基於特徵的方法

Li’s joint
RBPB
2）神經網絡方法

DMCNN, DMBERT：和文本模型大致一樣，但是缺少hierarchical modular attention模塊。
JRNN
dbRNN：使用了句法信息
HMEAE(CNN)
HMEAE(BERT)
（4）實驗結果

在兩個數據集上進行實驗，不同方法的結果如下：

從ACE 2005數據集中隨機採樣了一個句子，該句在HMEAE (BERT)模型中的注意力分值sci s^c_is
i
c

可視化如圖3所示。可以看出單詞隱層嵌入的注意力分值，在與其相關的上級概念上得分較高。這表明，由於上級概念模塊（SCM）是共享的，所以無需經過專門數據的訓練，SCM就可以很好地捕獲概念特徵。

5 總結
本文提出了HMEAE模型，用於處理EAE（事件元素抽取）問題（面向的是argument roles的分類問題）。

採用靈活的模塊網絡（modular networks），利用了和元素角色（argument roles）相關的層次概念，作爲有效的歸納偏置（inductive bias）。

實驗證明了HMEAE的有效性，並在某些度量上超越了state-of-the-art。

未來工作：在使用本文模型的基礎上，根據人的經驗，利用更多樣的inductive bias，來提升一些擴展任務。

這篇文章的亮點在於使用到了概念層次的信息，有助於EAE中的argument roles分類問題。

模型在建模的過程中以一個實例作爲對象，也就是一個句子。先使用CNN或BERT將句子建模成隱層嵌入序列；然後根據觸發詞和候選元素（句中實體）的位置，使用dynamic multi-pooling進行了特徵的聚合，得到了實例的嵌入。

接着，在上級概念模塊（SCM）中使用注意力機制，給每個隱層嵌入分配一個注意力分值，表示該隱層嵌入和該上級概念的關聯性程度。然後，給定角色，對隱層在不同上級概念中的注意力分值求平均，得到每個token i ii針對該角色的注意力分值。再使用這個注意力分值作爲權重，對所有的隱層嵌入進行加權求和，得到輸入實例（句子）的面向角色的嵌入。

最後，將實例的嵌入和實例的面向角色的嵌入拼接起來作爲分類器的輸入，和元素角色的嵌入相乘，再經過一層softmax，爲輸入的實例x xx預測角色r rr。

本人沒有看過代碼，光看論文個人感覺有一些不足之處。模型是對一個句子進行argument role的預測的，而一個句子中可能有多個argument。如果句子中有多個argument，分類器給句子分配了概率最大的role，那這個role對應哪個argument呢？如果是根據句子中的候選argument數m mm選擇前m mm個概率最大的role，那這些role該怎麼分配給對應的argument呢？我覺得作者忽視了這個問題，只考慮句子中有一個觸發詞、一個參數的情況。因爲3.1節中定義輸入序列時，是寫了一個t tt（觸發詞）和一個a aa（argument），沒有提到有多個t tt或多個a aa的情況。

參考文獻
[1] Xipeng Qiu, Xuanjing Huang, Zhao Liu, and Jinlong Zhou. 2011. Hierarchical text classification with latent concepts. In Proceedings of ACL-HLT, pages 598–602.

[2] Kazuya Shimura, Jiyi Li, and Fumiyo Fukumoto. 2018. HFT-CNN: Learning hierarchical category structure for multi-label short text categorization. In Proceedings of EMNLP, pages 811–816.

[3] Xu Han, Pengfei Yu, Zhiyuan Liu, Maosong Sun, and Peng Li. 2018. Hierarchical relation extraction with coarse-to-fine grained attention. In Proceedings of EMNLP, pages 2236–2245.

[4] Jacob Andreas, Marcus Rohrbach, Trevor Darrell, and Dan Klein. 2016. Neural module networks. In Proceedings of CVPR, pages 39–48.

#####豪豪豪豪######清華出品的兩個模型做事件檢測和事件元素抽取任務

linux安裝cuda和cudnn

模擬手機設備：使用 Playwright 實現移動端自動化測試

Mellanox網卡開啓SR-IOV

全面系統的AI學習路徑，幫助普通人也能玩轉AI

HTML 00 Tutorial

uni-app實現上拉加載

vue3編譯優化之“靜態提升”

又是一個月-20240513

flask 如何保證返回json有序

linux服務器設置ssh免密

##好好好好###開源的標註工具

###haohaohao######主動學習用於標註優化迭代

###豪豪豪豪######2020 推薦系統技術演進趨勢瞭解

###好好好######一文詳解微服務架構

einsum初探

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結