Motivation:
之前提出用神经网络做指代消解任务的思想都使用句法分析的结果或者手工构造的特征作为输入。这篇文章第一次使用端到端的模型,证明了在不需要输入额外的特征的情况下也可以取得了最好的效果。
基本术语:
原文链接:https://blog.csdn.net/Huang_cainiao/article/details/94597600
- mention 可以理解为文本中实体的表述或者是具有实体含义的表述
- antecedent 可理解为前指,图中 “Sally” 和 “she ” 具有共指关系,它们都指向关于“Sally”这个人。“Sally” 在"she"前面,即“Sally” 是“she”的前指。
- coreferent 这就是共指关系,“Sally” 和 “she” 具有共指关系。
- cluster 可以理解为簇,共指消解就是将文本中具有共指关系的mention 聚到一起,形成一个簇
- anapnoric 回指的,即可以理解为与 antecedent 相反?
- non-anapnoric 文本中没有与这个mention 具有回指的mention
基本思想:
分两步解决指代消解问题:第一步从所有的mention里面选择最有可能的mention;第二步判断一个mention和前面的antecedent是否具有指代关系。这两步对应了论文中的两个图:
图1 挑出分数最高的mention
图2 找出每个mention和前面的指代关系
具体实现步骤:
- 一个句子s,对s的每个单词和单词中的字符用向量表示x;
- 输入到BiLSTM中,获取上下文信息x*;
- 使用注意力机制,获取每个span的head x;
- 得到每个span i 的特征表示g=[ x*(start i), x*(end i),x(i), len(i)];
- g通过前馈神经网络计算sm(i);(至此对应第一张图)
- 根据sm(i)选择可能为mention的span;
- 计算sa(i,j),即和前面先行词的得分;
- 由softmax获得每个mention的最有可能的先行词。
实验结果:
We improve state-of-the-art performance by 1.5 F1 for the single model and by 3.1 F1.
消融实验:
- Span之间的距离和span的长度贡献了3.8的F1
- 使用预训练的词向量和字符级别的嵌入贡献了0.9的F1
- 演讲者和文档的体裁信息贡献了1.4个F1
- Head-finding可以关注多个词,贡献了1.3的F1
启发:
- 可能会混淆词向量相近的实体
- 剪枝操作降低模型复杂度
- 外部知识对指代消解很有必要