關係抽取的概述及研究進展

關係抽取任務概述

關係抽取任務概述

下面主要從關係抽取的定義、關係抽取的主流評測數據集、關係抽取的主流方法、關係抽取相關的經典論文、相關代碼資源幾個方面進行介紹。

轉載請註明出處：https://blog.csdn.net/CSDN_wujian/article/details/100136621

關係抽取的定義

關係抽取是從一段文本中提取出發生在兩個實體或多個實體之間的語義關係的任務。關係抽取Relation Extraction，也稱關係分類Relation Classification（判斷實體Entity之間屬於哪種關係，多分類問題）

根據處理數據源的不同，關係抽取可以分爲以下三種：

面向結構化文本的關係抽取：包括表格文檔、XML文檔、數據庫數據等
面向非結構化文本的關係抽取：純文本
面向半結構化文本的關係抽取：介於結構化和非結構化之間

根據抽取文本的範圍不同，關係抽取可以分爲以下兩種：

句子級關係抽取：從一個句子中判別兩個實體間是何種語義關係
語料（篇章）級關係抽取：不限定兩個目標實體所出現的上下文

根據所抽取領域的劃分，關係抽取又可以分爲以下兩種：

限定域關係抽取：在一個或者多個限定的領域內對實體間的語義關係進行抽取，限定關係的類別，可看成是一個文本分類任務
開放域關係抽取：不限定關係的類別

關係抽取的公開的主流評測數據集

ACE 2005

包含599 docs. 定義了7 種關係
（收費的）官網：https://www.ldc.upenn.edu/language-resources/data/obtaining，官網註冊會員，花錢購買

SemiEval 2010 Task8 Dataset:

19 types
train data: 8000, test data: 2717
關係：Cause-Effect、Instrument-Agency、Product-Producer、Content-Container、Entity-Origin、Entity-Destination、Component - Whole、Member-Collection、Message-Topic、Other
數據集介紹：https://blog.csdn.net/qq_29883591/article/details/88567561

NYT（New York Times Corpus）

NYT是遠監督關係抽取(distantly supervised relationship extraction)所用的標準預料數據，發佈於 Riedel et al, 2010.該篇論文中。
包含的文本來源於紐約時報New York Times所標註的語料，其中的命名實體是通過 Stanford NER 工具並結合 Freebase知識庫進行標註的。命名實體對之間的關係是鏈接和參考外部的Freebase知識庫中的關係，結合遠監督方法所得到的。

Example:
Elevation Partners, the $1.9 billion private equity group that was founded by Roger McNamee
(founded_by, Elevation_Partners, Roger_McNamee)

53 種關係
train data: 522611 sentences; 需要注意的是，這裏面有近80%的句子的標籤爲NA
test data: 172448 sentences;

TACRED數據集

TACRED 是一個大規模的關係抽取數據集，包含106,264 樣本，和41種關係類型，文本內容主要是新聞文本和 TAC Knowledge Base Population (TAC KBP) 競賽的文本語料. 例如(e.g., per:schools_attended and org:members) or “no_relation ” 這些樣本來自於TAC KBP 競賽中的人爲標註和衆包。
Example:
Billy Mays, the bearded, boisterious pitchman who, as the undisputed king of TV yell and sell, became an inlikely pop culture icon, died at his home in Tampa, Fla, on Sunday.
(per:city_of_death, Billy Mays, Tampa)

fewshot數據集（清華）

The Few-Shot Relation Classification Dataset (FewRel) .該數據集包含70000條句子，100種關係，每種關係包含700條句子。通過 Wikipedia 語料和衆包完成。The few-shot learning（小樣本學習） task follows the C-way K-shot meta learning setting. 它是目前最大的監督關係抽取的數據集，也是目前最大的FewShot學習的數據集，FewRel數據獲取

關係抽取的主流方法

有監督的學習方法：該方法將關係抽取任務當做分類問題，根據訓練數據設計有效的特徵，從而學習各種分類模型，然後使用訓練好的分類器預測關係。該方法的問題在於需要大量的人工標註訓練語料，而語料標註工作通常非常耗時耗力。
半監督的學習方法：該方法主要採用Bootstrapping進行關係抽取。對於要抽取的關係，該方法首先手工設定若干種子實例，然後迭代地從數據從抽取關係對應的關係模板和更多的實例。
無監督的學習方法：該方法假設擁有相同語義關係的實體對擁有相似的上下文信息。因此可以利用每個實體對對應上下文信息來代表該實體對的語義關係，並對所有實體對的語義關係進行聚類。

這三種方法中，有監督學習法因爲能夠抽取並有效利用特徵，在獲得高準確率和高召回率方面更有優勢，是目前業界應用最廣泛的一類方法。

限定域關係抽取方法：

基於模板的關係抽取方法：通過人工編輯或者學習得到的模板對文本中的實體關係進行抽取和判別，受限於模板的質量和覆蓋度，可擴張性不強
基於機器學習的關係抽取方法：將關係抽取看成是一個分類問題
其中基於機器學習的關係抽取方法又可分爲有監督和弱監督。

有監督的關係抽取方法：

基於特徵工程的方法：需要顯示地將關係實例轉換成分類器可以接受的特徵向量
基於核函數的方法：直接以結構樹爲處理對象，在計算關係之間距離的時候不再使用特徵向量的內積而是用核函數
基於神經網絡的方法：直接從輸入的文本中自動學習有效的特徵表示，端到端

弱監督的關係抽取方法：不需要人工標註大量數據。

遠監督方法（distant supervision）：用開放知識圖譜自動標註訓練樣本，不需要人工逐一標註，屬弱監督關係抽取的一種。

開放域關係抽取方法：

不需要預先定義關係類別，使用實體對上下文中的一些詞語來描述實體之間的關係。

華盛頓大學課程中關係分類的方法總結：

Hand-built patterns
Bootstrapping methods
Supervised methods
Distant supervision
Unsupervised methods

Supervised RE: summary

Supervised approach can achieve high accuracy
- At least, for some relations
- If we have lots of hand-labeled training data
But has significant limitations!
- Labeling 5,000 relations (+ named entities) is expensive
- Doesn’t generalize to different relations
Next: beyond supervised relation extraction
- Distantly supervised relation extraction
- Unsupervised relation extraction

Reference：https://courses.cs.washington.edu/courses/cse517/13wi/slides/cse517wi13-RelationExtraction.pdf

數據集榜單

參考：http://nlpprogress.com/english/relationship_extraction.html

NYT數據集最新論文效果榜單

The main metrics used are either precision at N results or plots of the precision-recall
評測指標：橫座標爲召回率Recall，縱座標爲精準率Precision，畫出PR（precision-recall）曲線，例如目前最新最好的效果爲Recall=0.1時，Precision=0.849；Recall=0.3時，Precision=0.728

SemEval-2010 Task 8數據集最新論文效果榜單

評測指標：macro-averaged F1，在評測時不考慮“Other”這一種關係。
對各個混淆矩陣分別計算Precision和Recall，從而使用宏精準率macro_precison、宏召回率macro_recall、宏F1 macro_F1

分類模型的效果評估

TACRED數據集及最新榜單

The main evaluation metric used is micro-averaged F1 over instances with proper relationships (i.e. excluding the no_relation type).
micro_F1: 對各混淆矩陣中對應元素（TP、FN、FP、TN）分別求平均值，從而使用微精準率micro_precison、微召回率micro_recall、微F1 micro_F1

FewRel

few-shot learning：樣本種類很多，選取其中的C個類別進行學習，每個類別選取K個樣本，進行學習，然後預測這C個類別中樣本，即C-Way-K-Shot小樣本學習，內在主要是判斷每種類別之間的差異，相似樣本之間進行類比。例如，小朋友學習認識小動物，選取5種動物，每種動物選取2張照片,進行學習，然後在一堆這5種動物的照片給他指認，這就是一個5-Way-2-Shot的一個小樣本學習。FewShot介紹

http://www.zhuhao.me/fewrel/

關係抽取相關的經典論文

https://www.cnblogs.com/theodoric008/p/7874373.html

Relation Classification via Convolutional Deep Neural Network
論文信息：Zeng et al. Proceedings of COLING 2014
模型名稱：DNN
論文內容：第一次把CNN卷積神經網絡用在關係分類中，使用Lexical Level Features特徵：實體1詞向量、實體2詞向量、實體1的左右詞的詞向量、實體2的左右詞的詞向量、實體1和實體2在Wordnet中的上位語義詞的詞向量，以及 Sentence Level Features特徵：[Word Features, Position Features],最後將Lexical Level Features和 Sentence Level Features進行拼接，利用CNN，max pooling進行分類。在SemEval2008數據集上實現了F值0.827的效果。該論文開啓了CNN深度學習模型在關係抽取的先河，後續很多論文都引用這篇論文。
Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks
論文信息：Zeng et al. 2015 EMNLP
模型名稱：PCNN
論文內容：非常經典的文章，分段式的max pooling
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
作者信息：中科大自動化所 Zhou ACL 2016
模型名稱：BLSTM + ATT
論文內容：簡單有效。使用BLSTM對句子建模，並使用word級別的attention機制。
Neural Relation Extraction with Selective Attention over Instances
作者信息：清華 Lin et al. 2016
模型名稱：CNN+ATT / PCNN+ATT
論文內容：使用CNN/PCNN作爲sentence encoder, 並使用句子級別的attention機制。近幾年標杆的存在，國內外新論文都要把它拖出來吊打一遍。
Deep Residual Learning forWeakly-Supervised Relation Extraction
作者信息：Yi Yao Huang 臺灣國立大學 EMNLP 2017
模型名稱：ResCNN-9
論文內容：本文使用淺層（9）ResNet作爲sentence encoder, 在不使用piecewise pooling 或者attention機制的情況下，性能和PCNN+ATT 接近。這就證明使用更fancy的CNN網絡作爲sentence encoder完全是有可能有用的。不光光可以在本任務中驗證，其他的NLP任務同樣可以使用。可以參考知乎筆記： https://zhuanlan.zhihu.com/p/31689694
Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions
作者信息：Ji 2017 中科院自動化所 AAAI 2017
模型名稱：APCNNs(PCNN + ATT) + D
論文內容：引入實體描述信息，個人認爲沒什麼亮點，引入外部信息固然有效，但是很多時候實際問題中遇到的實體大多是找不到實體描述信息的。參考知乎筆記： https://zhuanlan.zhihu.com/p/35051652
論文名稱： Learning with Noise: Enhance Distantly Supervised Relation Extraction with Dynamic Transition Matrix
作者信息： ACL 2017 Luo 北大
模型名稱：CNN + ATT + TM （這名字是我給起的）
論文內容：文章出發點很好。既然遠程監督數據集最大的問題在於噪音非常之多，那麼對於噪音進行描述則是非常有意義的。本文創新點有兩個。第一個是，我們讓模型先學習從輸入空間到真實標籤空間的映射，再用一個轉移矩陣學習從真實標籤空間到數據集標籤空間的錯誤轉移概率矩陣。這不是本文提出的方法，本文在此基礎之上進行改進，將該矩陣從全局共享轉化爲跟輸入相關的矩陣，也就是文中提到的動態轉移矩陣，性能有提升。第二個出創新點在於使用了課程學習。課程學習的出發點在於模型如果先學習簡單樣本再學習難樣本，這樣一種先易後難的學習方式比隨機順序學習更好。最終在NYT數據集上有小小的提升，但是本文的思路非常值得借鑑。可只可惜沒有源代碼。參考知乎筆記 https://zhuanlan.zhihu.com/p/36527644
Effectively Combining RNN and CNN for Relation Classification and Extraction
作者信息： SemEval 2018 四項任務三項第一，一項第二 ETH Zurich
模型名稱：作者沒起名字
論文內容：這是一篇打比賽的文章，工程性的內容很多。核心技巧在於使用CNN, RNN模型集成。文中還提到了多種方法，不擇手段提升最終模型的性能。雖然該模型訓練速度可以說是非常慢了，但是還是有很多地方可以借鑑。參考知乎筆記：https://zhuanlan.zhihu.com/p/35845948
Joint Extractions of Entities and Relations Based on a Novel Tagging Scheme
作者信息： Zheng 2017 中科院自動化所
模型名稱：LSTM-CRF, LSTM-LSTM,LSTM-LSTM-Bias
論文內容：把關係抽取內容轉換成序列標註任務參考知乎筆記https://zhuanlan.zhihu.com/p/31003123

參考文獻

分類模型的效果評估
關係抽取(分類)總結:http://shomy.top/2018/02/28/relation-extraction/
知識圖譜數據構建的“硬骨頭”，阿里工程師如何拿下？
CIPS青工委學術專欄第3期 | 基於深度學習的關係抽取
 實體關係抽取 entity relation extraction 文獻閱讀總結
 讀書筆記：關係抽取和事件抽取
 Relation Extraction Survey

關係抽取概述及研究進展Relation Extraction Progress

關係抽取的概述及研究進展

關係抽取任務概述

關係抽取的定義

關係抽取的公開的主流評測數據集

ACE 2005

SemiEval 2010 Task8 Dataset:

NYT（New York Times Corpus）

TACRED數據集

fewshot數據集（清華）

關係抽取的主流方法

數據集榜單

NYT數據集最新論文效果榜單

SemEval-2010 Task 8數據集最新論文效果榜單

TACRED數據集及最新榜單

FewRel

關係抽取相關的經典論文

相關代碼資源

參考文獻

詐騙（殺豬盤）網站進行滲透測試

Python 潮流週刊#50：我最喜歡的 Python 3.13 新特性！

【Python】保存gym截圖

【譯】使用 GitHub Copilot 作爲你的編碼 GPS

Linux 服務器配置-安裝portainer-ce社區版

外行也能讀懂的網絡硬件設備功能原理速成

安裝Auto-GPT

2019第十六屆研究生數學建模成績分析

Python實現統計學的各種檢驗

Python編程的17個特別實用的技巧(trick)

C語言實現棧(基於結構體指針)

Numpy 的常用操作

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結