論文題目:
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
論文出處:
ACL2016
論文地址:
https://www.aclweb.org/anthology/P16-2034
前言
本篇文章是早期關係提取任務神經網絡方法的經典模型。
天池比賽-瑞金糖尿病文獻數據集比賽複賽的冠軍隊伍也參考此論文結構搭建了關係抽取的baseline模型。
這裏總結一下這個論文裏的關鍵點和整體pipeline。
任務描述
輸入: 語言序列 [x1,x2, … , xn] 其中包含兩個待預測關係的實體
輸出:兩個實體的關係類別,如無關係,則輸出一特殊類別,可記爲others
模型pipeline
1. 實體位置指示器
通過標記符作爲實體位置指示器。四個標記符分別代表兩個實體的開始和結束位置。
2.詞嵌入
通過look-up方法根據各單詞索引得到其詞向量。
這裏有幾點注意事項:
四個實體位置指示符號和普通單詞一樣存儲於embedding矩陣中。
embedding矩陣爲可訓練的參數,初始基於預訓練的詞向量進行初始化,訓練時進行微調。
3. 模型結構
整體結構如下圖:
雙向LSTM層的隱藏狀態使用加和方式而未採用拼接方式:
Attention層:
分類層:
損失函數: