Motivation:
之前提出用神經網絡做指代消解任務的思想都使用句法分析的結果或者手工構造的特徵作爲輸入。這篇文章第一次使用端到端的模型,證明了在不需要輸入額外的特徵的情況下也可以取得了最好的效果。
基本術語:
原文鏈接:https://blog.csdn.net/Huang_cainiao/article/details/94597600
- mention 可以理解爲文本中實體的表述或者是具有實體含義的表述
- antecedent 可理解爲前指,圖中 “Sally” 和 “she ” 具有共指關係,它們都指向關於“Sally”這個人。“Sally” 在"she"前面,即“Sally” 是“she”的前指。
- coreferent 這就是共指關係,“Sally” 和 “she” 具有共指關係。
- cluster 可以理解爲簇,共指消解就是將文本中具有共指關係的mention 聚到一起,形成一個簇
- anapnoric 回指的,即可以理解爲與 antecedent 相反?
- non-anapnoric 文本中沒有與這個mention 具有回指的mention
基本思想:
分兩步解決指代消解問題:第一步從所有的mention裏面選擇最有可能的mention;第二步判斷一個mention和前面的antecedent是否具有指代關係。這兩步對應了論文中的兩個圖:
圖1 挑出分數最高的mention
圖2 找出每個mention和前面的指代關係
具體實現步驟:
- 一個句子s,對s的每個單詞和單詞中的字符用向量表示x;
- 輸入到BiLSTM中,獲取上下文信息x*;
- 使用注意力機制,獲取每個span的head x;
- 得到每個span i 的特徵表示g=[ x*(start i), x*(end i),x(i), len(i)];
- g通過前饋神經網絡計算sm(i);(至此對應第一張圖)
- 根據sm(i)選擇可能爲mention的span;
- 計算sa(i,j),即和前面先行詞的得分;
- 由softmax獲得每個mention的最有可能的先行詞。
實驗結果:
We improve state-of-the-art performance by 1.5 F1 for the single model and by 3.1 F1.
消融實驗:
- Span之間的距離和span的長度貢獻了3.8的F1
- 使用預訓練的詞向量和字符級別的嵌入貢獻了0.9的F1
- 演講者和文檔的體裁信息貢獻了1.4個F1
- Head-finding可以關注多個詞,貢獻了1.3的F1
啓發:
- 可能會混淆詞向量相近的實體
- 剪枝操作降低模型複雜度
- 外部知識對指代消解很有必要