論文題目:Exploiting Entity BIO Tag Embeddings and Multi-task Learning for Relation Extraction with Imbalanced Data
論文出處:ACL 2019
論文地址:https://www.aclweb.org/anthology/P19-1130
論文概述
這篇論文針對關係提取任務,核心創新點有兩點,已體現在標題中。
第一是引入BIO實體標籤embedding,第二是引入多任務學習,具體講,同時進行relation identification和relation classification任務學習。
論文要點
模型結構
本文的模型結構非常簡單,如下圖所示:
輸入部分
分爲詞嵌入,位置嵌入,BIO標籤嵌入
其中位置嵌入不是創新點,和之前關係提取文章類似,根據與目標實體的相對距離進行查找。
BIO標籤嵌入則是根據實體的NER標籤進行索引。
位置嵌入和BIO標籤的設定方式如下圖所示:
encoding部分
多個不同尺寸的卷積核進行卷積,之後進行max pooling
loss部分
這部分是文章的另一個核心要點。
本文引入了多任務學習,loss分爲兩部分。
具體講,分爲關係識別和關係分類兩部分loss。
關係識別部分,即判斷對應兩個實體之間是否存在某種標註關係,採用交叉熵:
關係分類部分,採用ranking loss
通過分類層計算各個類別的分數。
對類別分數採用如下操作:
其中r爲設定的尺度因子,和爲設定的判定閾值,如文中敘述,通過這樣的設定,爲了使loss降低,希望正確類別的分數儘量高於,錯誤類別的分數儘量低於。實際訓練時,只取非正確類別中的最高分數作爲。
並且對於負樣本,只保留部分。
這部分loss如下(負樣本時只有):
最後,將兩個loss函數加和:
預測部分
當最高分數大於閾值時才輸出對應類別,否則都記爲others類。
數據
ACE2005數據集
實驗結果
這裏不詳細敘述。BIO embedding 對模型性能有較大幫助,比基線模型有較大提升。多任務學習對基線有一定提升。
論文總結
1.論文提出利用BIO標籤建立其embedding,對模型性能有較大幫助。
2.提出多任務學習,loss中包含實體關係識別與實體關係分類兩部分。
3.論文中實現的基線分數看起來較低,不知道用到這個數據集的其他文章基線分數能達到多少呢?
4.論文引入了較多的閾值超參數,在實際使用時應該需要根據自己的數據集進行優化調整。