nlp賽事_關係抽取任務

百度2020年提供了5個賽道
事件抽取任務
關係抽取任務
本文內容
關係抽取就是根據SPO三元組標註訓練模型,使得模型能夠自動識別SPO三種類別

任務目標是在給定的文本句子中,根據預先定義的schema集合,抽取出所有滿足 schema 約束的 SPO 三元組。schema 定義了關係 P 以及其對應的主體 S 和客體 O 的類別,根據 O 類型的複雜程度可以劃分爲以下兩種:

  1. 簡單 O 值:也就是說 O 是一個單一的文本。例如,「妻子」關係的 schema 定義爲:
{
    S_TYPE: 人物,
    P: 妻子,
    O_TYPE: {
        @value: 人物
	}
}

簡單 O 值是最常見關係類型,去年競賽中所發佈的所有 schema 都屬於這種類型。爲了保持格式統一,簡單 O 值類型的 schema 定義通過結構體保存,結構體中只有一個 @value 字段存放真正的 O 值類型。

  1. 複雜 O 值:也就是說 O 是一個結構體,由多個語義明確的文本共同組成,多個文本對應了結構體中的多個槽位(slot)。例如,「飾演」關係中 O 值有兩個槽位 @value 和 inWork,分別表示「飾演的角色是什麼」以及「在哪部影視作品中發生的飾演關係」,其 schema 定義爲:
{
    S_TYPE: 娛樂人物,
    P: 飾演,
    O_TYPE: {
        @value: 角色
        inWork: 影視作品
    }
} 

在複雜 O 值類型的定義中,@value 槽位可以認爲是該關係的默認 O 值槽位,對於該關係不可或缺,其他槽位均可缺省。

輸入/輸出:

輸入:schema約束集合及句子sent
輸出: 句子sent中包含的符合給定schema約束的三元組知識Triples

數據簡介 Dataset

本次競賽使用的DuIE2.0數據集是業界規模最大的基於schema的中文信息抽取數據集,其包含超過21萬中文句子及48個已定義好的schema,表1 中展示了DuIE2.0數據集中包含的43個簡單知識的schema及對應的例子,表2 中展示了DuIE2.0數據集中包含的5個複雜知識的schema及對應的例子。數據集中的句子來自百度百科、百度貼吧和百度信息流文本。數據集劃分爲17萬訓練集,2萬驗證集和2萬測試集。其中訓練集和驗證集用於訓練,可供自由下載,測試集分爲兩個,測試集1供參賽者在平臺上自主驗證,測試集2在比賽結束前1周發佈,並將作爲最終的評測排名。`

https://github.com/PaddlePaddle/Research/tree/master/KG/DuIE_Baseline

{"object_type": {"@value": "學校"}, "predicate": "畢業院校", "subject_type": "人物"}
{"object_type": {"@value": "人物"}, "predicate": "嘉賓", "subject_type": "電視綜藝"}
{"object_type": {"inWork": "影視作品", "@value": "人物"}, "predicate": "配音", "subject_type": "娛樂人物"}
{"object_type": {"@value": "歌曲"}, "predicate": "主題曲", "subject_type": "影視作品"}
{"object_type": {"@value": "人物"}, "predicate": "代言人", "subject_type": "企業/品牌"}
{"object_type": {"@value": "音樂專輯"}, "predicate": "所屬專輯", "subject_type": "歌曲"}
{"object_type": {"@value": "人物"}, "predicate": "父親", "subject_type": "人物"}
{"object_type": {"@value": "人物"}, "predicate": "作者", "subject_type": "圖書作品"}
{"object_type": {"inArea": "地點", "@value": "Date"}, "predicate": "上映時間", "subject_type": "影視作品"}
{"object_type": {"@value": "人物"}, "predicate": "母親", "subject_type": "人物"}
{"object_type": {"@value": "Text"}, "predicate": "專業代碼", "subject_type": "學科專業"}
{"object_type": {"@value": "Number"}, "predicate": "佔地面積", "subject_type": "機構"}
{"object_type": {"@value": "Text"}, "predicate": "郵政編碼", "subject_type": "行政區"}
{"object_type": {"inArea": "地點", "@value": "Number"}, "predicate": "票房", "subject_type": "影視作品"}
{"object_type": {"@value": "Number"}, "predicate": "註冊資本", "subject_type": "企業"}
{"object_type": {"@value": "人物"}, "predicate": "主角", "subject_type": "文學作品"}
{"object_type": {"@value": "人物"}, "predicate": "妻子", "subject_type": "人物"}
{"object_type": {"@value": "人物"}, "predicate": "編劇", "subject_type": "影視作品"}
{"object_type": {"@value": "氣候"}, "predicate": "氣候", "subject_type": "行政區"}
{"object_type": {"@value": "人物"}, "predicate": "歌手", "subject_type": "歌曲"}
{"object_type": {"inWork": "作品", "onDate": "Date", "@value": "獎項", "period": "Number"}, "predicate": "獲獎", "subject_type": "娛樂人物"}
{"object_type": {"@value": "人物"}, "predicate": "校長", "subject_type": "學校"}
{"object_type": {"@value": "人物"}, "predicate": "創始人", "subject_type": "企業"}
{"object_type": {"@value": "城市"}, "predicate": "首都", "subject_type": "國家"}
{"object_type": {"@value": "人物"}, "predicate": "丈夫", "subject_type": "人物"}
{"object_type": {"@value": "Text"}, "predicate": "朝代", "subject_type": "歷史人物"}
{"object_type": {"inWork": "影視作品", "@value": "人物"}, "predicate": "飾演", "subject_type": "娛樂人物"}
{"object_type": {"@value": "Number"}, "predicate": "面積", "subject_type": "行政區"}
{"object_type": {"@value": "地點"}, "predicate": "總部地點", "subject_type": "企業"}
{"object_type": {"@value": "地點"}, "predicate": "祖籍", "subject_type": "人物"}
{"object_type": {"@value": "Number"}, "predicate": "人口數量", "subject_type": "行政區"}
{"object_type": {"@value": "人物"}, "predicate": "製片人", "subject_type": "影視作品"}
{"object_type": {"@value": "Number"}, "predicate": "修業年限", "subject_type": "學科專業"}
{"object_type": {"@value": "城市"}, "predicate": "所在城市", "subject_type": "景點"}
{"object_type": {"@value": "人物"}, "predicate": "董事長", "subject_type": "企業"}
{"object_type": {"@value": "人物"}, "predicate": "作詞", "subject_type": "歌曲"}
{"object_type": {"@value": "作品"}, "predicate": "改編自", "subject_type": "影視作品"}
{"object_type": {"@value": "企業"}, "predicate": "出品公司", "subject_type": "影視作品"}
{"object_type": {"@value": "人物"}, "predicate": "導演", "subject_type": "影視作品"}
{"object_type": {"@value": "人物"}, "predicate": "作曲", "subject_type": "歌曲"}
{"object_type": {"@value": "人物"}, "predicate": "主演", "subject_type": "影視作品"}
{"object_type": {"@value": "人物"}, "predicate": "主持人", "subject_type": "電視綜藝"}
{"object_type": {"@value": "Date"}, "predicate": "成立日期", "subject_type": "機構"}
{"object_type": {"@value": "Text"}, "predicate": "簡稱", "subject_type": "機構"}
{"object_type": {"@value": "Number"}, "predicate": "海拔", "subject_type": "地點"}
{"object_type": {"@value": "Text"}, "predicate": "號", "subject_type": "歷史人物"}
{"object_type": {"@value": "國家"}, "predicate": "國籍", "subject_type": "人物"}
{"object_type": {"@value": "語言"}, "predicate": "官方語言", "subject_type": "國家"}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章