知識圖譜問答（KBQA）數據集介紹

原創

2020-07-06 12:12

一、WebQuestions

提出該數據集的論文：Semantic Parsing on Freebase from Question-Answer Pairs

數據集地址：https://worksheets.codalab.org/worksheets/0xba659fe363cb46e7a505c5b6a774dc8a

WebQuestions數據集（2013年提出）是由斯坦福大學研究人員通過Google Suggest API構建得到的，數據集本身共包含5810條（問題，答案）對，其中簡單問題佔比在84%，複雜的多跳和推理問題相對較少。根據提出者的最初數據劃分方式，WebQuestions被分爲訓練集和測試集兩個集合，其中訓練集包含3778條數據，測試集包含2032條數據。

二、SimpleQuestions

提出該數據集的論文：Large-scale Simple Question Answering with Memory Networks

數據集地址：https://research.fb.com/downloads/babi/

SimpleQuestions數據集（2015年提出）是一個針對簡單問題而構建的數據集，它採用人工標註的方法根據知識庫中的事實生成對應的問句，並且以Freebase作爲答案來源。該數據集共包含108,442條數據（包含關係標註），其中訓練集爲75910條（70%），驗證集爲10845條（10%），測試集爲21687條（20%）。

三、ComplexQuestions

提出該數據集的論文：Constraint-Based Question Answering with Knowledge Graph

作者本人的數據集地址：https://github.com/JunweiBao/MulCQA/tree/ComplexQuestions

ComplexQuestions數據集（2016年提出）是一個專門針對複雜問題而構建的數據集，在構建該數據集過程中，作者從一個實際使用的搜索引擎（具體哪個暫未知）中篩選並得到了878條可用的問答對。除了這878條數據，作者還從WebQuestions等數據集上額外選出了1222條數據，由此共得到了2100條複雜問題對。總體來說，該數據集共包含2100條問答對，其中訓練集個數爲1300條，測試集個數爲800條。

四、GraphQuestions

提出該數據集的論文：On Generating Characteristic-rich Question Sets for QA Evaluation

數據集地址：https://github.com/ysu1989/GraphQuestions

這是一個比較難的數據集（2016年提出），涉及較多比較複雜的邏輯，以Freebase作爲知識庫。該數據集在構建時先設計問題涉及的模式（即知識庫中的一個子圖），然後讓人根據圖改寫成自然語言題目。舉個例子：“the nine eleven were carried out with the involvement of what terrorist organizations?”

五、30M Factoid Questions

提出該數據集的論文：Generating Factoid QuestionsWith Recurrent Neural Networks: The 30M Factoid Question-Answer Corpus

數據集地址：https://academictorrents.com/details/973fb709bdb9db6066213bbc5529482a190098ce

該數據集是由模型自動構建的，包含30M的問答對。按照論文中的說法，問句質量和人類構建的質量相當，很有使用價值。

附：

KBQA相關工作系統總結：針對複雜問題的知識圖譜問答最新進展
WebQuestions相關介紹：SEMPRE–Semantic Parsing with Execution

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

知識圖譜問答（KBQA）數據集介紹

一、WebQuestions

二、SimpleQuestions

三、ComplexQuestions

四、GraphQuestions

五、30M Factoid Questions

附：

【SQL進階】CASE語句的使用

npm error Cannot read properties of null (reading 'isDescendantOf')

知識圖譜問答（KBQA）數據集介紹

python：Linux下pip的安裝

C語言對文件的輸入輸出

計算機網絡概述（簡潔）

機器學習、深度學習、神經網絡

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結