基於實體BIO標籤嵌入以及多任務學習的不均衡數據關係提取[ACL 2019]閱讀筆記

論文題目：Exploiting Entity BIO Tag Embeddings and Multi-task Learning for Relation Extraction with Imbalanced Data
論文出處：ACL 2019
論文地址：https://www.aclweb.org/anthology/P19-1130

論文概述

這篇論文針對關係提取任務，核心創新點有兩點，已體現在標題中。
第一是引入BIO實體標籤embedding，第二是引入多任務學習，具體講，同時進行relation identification和relation classification任務學習。

論文要點

模型結構

本文的模型結構非常簡單，如下圖所示：

輸入部分

分爲詞嵌入，位置嵌入，BIO標籤嵌入
其中位置嵌入不是創新點，和之前關係提取文章類似，根據與目標實體的相對距離進行查找。
BIO標籤嵌入則是根據實體的NER標籤進行索引。
位置嵌入和BIO標籤的設定方式如下圖所示：

encoding部分

多個不同尺寸的卷積核進行卷積，之後進行max pooling

loss部分

這部分是文章的另一個核心要點。
本文引入了多任務學習，loss分爲兩部分。
具體講，分爲關係識別和關係分類兩部分loss。

關係識別部分，即判斷對應兩個實體之間是否存在某種標註關係，採用交叉熵：

關係分類部分，採用ranking loss

通過分類層計算各個類別的分數。
對類別分數採用如下操作：

其中r爲設定的尺度因子， $m^{+}$ 和 $m^{-}$ 爲設定的判定閾值，如文中敘述，通過這樣的設定，爲了使loss降低，希望正確類別的分數儘量高於 $m^{+}$ ，錯誤類別的分數儘量低於 $m^{-}$ 。實際訓練時，只取非正確類別中的最高分數作爲 $s_{y^{-}}$ 。
並且對於負樣本，只保留 $L^{-}$ 部分。
這部分loss如下（負樣本時只有 $L^{-}$ ）：

最後，將兩個loss函數加和：

預測部分

當最高分數大於閾值時才輸出對應類別，否則都記爲others類。

數據

ACE2005數據集

實驗結果

這裏不詳細敘述。BIO embedding 對模型性能有較大幫助，比基線模型有較大提升。多任務學習對基線有一定提升。

論文總結

1.論文提出利用BIO標籤建立其embedding，對模型性能有較大幫助。
2.提出多任務學習，loss中包含實體關係識別與實體關係分類兩部分。
3.論文中實現的基線分數看起來較低，不知道用到這個數據集的其他文章基線分數能達到多少呢？
4.論文引入了較多的閾值超參數，在實際使用時應該需要根據自己的數據集進行優化調整。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

基於實體BIO標籤嵌入以及多任務學習的不均衡數據關係提取[ACL 2019]閱讀筆記

論文概述

論文要點

模型結構

輸入部分

encoding部分

loss部分

預測部分

數據

實驗結果

論文總結

[軟件工具百科] 互聯網資源歷史快照歸檔站點與數字圖書館

杭州的 IT 崩盤了麼？

程序員常見的文本查看工具

VS2022 解決方案打不開 .NET Framework 4.0 、 4.5 等老項目

Vue3 運行可以，build 打包發佈報錯，app.config.globalProperties 用法坑

既然測試也要求寫代碼，那乾脆讓開發兼任測試不就好了嗎？

ITSM落地經驗之建設藍圖規劃

PDF 補丁丁 1.0.2 版更新

奇怪！應用的日誌呢？？

CS224n(2019):Assignment2 參考答案

linux系統三步解決matplotlib圖片中文顯示問題

Leetcode-695.最大島嶼面積（DFS 與 BFS 解法，python3）

從零開始實現核密度估計（kernel density estimation，KDE）-python實現

linux磁盤掛載教程

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結