用於關係提取的基於注意力機制的雙向LSTM網絡[ACL 2016]

論文題目:
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
論文出處:
ACL2016
論文地址:
https://www.aclweb.org/anthology/P16-2034

前言

本篇文章是早期關係提取任務神經網絡方法的經典模型。
天池比賽-瑞金糖尿病文獻數據集比賽複賽的冠軍隊伍也參考此論文結構搭建了關係抽取的baseline模型。
這裏總結一下這個論文裏的關鍵點和整體pipeline。

任務描述

輸入: 語言序列 [x1,x2, … , xn] 其中包含兩個待預測關係的實體
輸出:兩個實體的關係類別,如無關係,則輸出一特殊類別,可記爲others

模型pipeline

1. 實體位置指示器

在這裏插入圖片描述
通過標記符作爲實體位置指示器。四個標記符分別代表兩個實體的開始和結束位置。

2.詞嵌入

通過look-up方法根據各單詞索引得到其詞向量。
在這裏插入圖片描述
這裏有幾點注意事項:
四個實體位置指示符號和普通單詞一樣存儲於embedding矩陣中。
embedding矩陣爲可訓練的參數,初始基於預訓練的詞向量進行初始化,訓練時進行微調。

3. 模型結構

整體結構如下圖:
在這裏插入圖片描述
雙向LSTM層的隱藏狀態使用加和方式而未採用拼接方式:
在這裏插入圖片描述
Attention層:
在這裏插入圖片描述
在這裏插入圖片描述
分類層:
在這裏插入圖片描述
損失函數:

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章