用于关系提取的基于注意力机制的双向LSTM网络[ACL 2016]

论文题目:
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
论文出处:
ACL2016
论文地址:
https://www.aclweb.org/anthology/P16-2034

前言

本篇文章是早期关系提取任务神经网络方法的经典模型。
天池比赛-瑞金糖尿病文献数据集比赛复赛的冠军队伍也参考此论文结构搭建了关系抽取的baseline模型。
这里总结一下这个论文里的关键点和整体pipeline。

任务描述

输入: 语言序列 [x1,x2, … , xn] 其中包含两个待预测关系的实体
输出:两个实体的关系类别,如无关系,则输出一特殊类别,可记为others

模型pipeline

1. 实体位置指示器

在这里插入图片描述
通过标记符作为实体位置指示器。四个标记符分别代表两个实体的开始和结束位置。

2.词嵌入

通过look-up方法根据各单词索引得到其词向量。
在这里插入图片描述
这里有几点注意事项:
四个实体位置指示符号和普通单词一样存储于embedding矩阵中。
embedding矩阵为可训练的参数,初始基于预训练的词向量进行初始化,训练时进行微调。

3. 模型结构

整体结构如下图:
在这里插入图片描述
双向LSTM层的隐藏状态使用加和方式而未采用拼接方式:
在这里插入图片描述
Attention层:
在这里插入图片描述
在这里插入图片描述
分类层:
在这里插入图片描述
损失函数:

在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章