论文题目:
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
论文出处:
ACL2016
论文地址:
https://www.aclweb.org/anthology/P16-2034
前言
本篇文章是早期关系提取任务神经网络方法的经典模型。
天池比赛-瑞金糖尿病文献数据集比赛复赛的冠军队伍也参考此论文结构搭建了关系抽取的baseline模型。
这里总结一下这个论文里的关键点和整体pipeline。
任务描述
输入: 语言序列 [x1,x2, … , xn] 其中包含两个待预测关系的实体
输出:两个实体的关系类别,如无关系,则输出一特殊类别,可记为others
模型pipeline
1. 实体位置指示器
通过标记符作为实体位置指示器。四个标记符分别代表两个实体的开始和结束位置。
2.词嵌入
通过look-up方法根据各单词索引得到其词向量。
这里有几点注意事项:
四个实体位置指示符号和普通单词一样存储于embedding矩阵中。
embedding矩阵为可训练的参数,初始基于预训练的词向量进行初始化,训练时进行微调。
3. 模型结构
整体结构如下图:
双向LSTM层的隐藏状态使用加和方式而未采用拼接方式:
Attention层:
分类层:
损失函数: