知識圖譜問答(KBQA)數據集介紹

一、WebQuestions

提出該數據集的論文:Semantic Parsing on Freebase from Question-Answer Pairs

數據集地址:https://worksheets.codalab.org/worksheets/0xba659fe363cb46e7a505c5b6a774dc8a

WebQuestions數據集(2013年提出)是由斯坦福大學研究人員通過Google Suggest API構建得到的,數據集本身共包含5810條(問題,答案)對,其中簡單問題佔比在84%,複雜的多跳和推理問題相對較少。根據提出者的最初數據劃分方式,WebQuestions被分爲訓練集和測試集兩個集合,其中訓練集包含3778條數據,測試集包含2032條數據。

二、SimpleQuestions

提出該數據集的論文:Large-scale Simple Question Answering with Memory Networks

數據集地址:https://research.fb.com/downloads/babi/

SimpleQuestions數據集(2015年提出)是一個針對簡單問題而構建的數據集,它採用人工標註的方法根據知識庫中的事實生成對應的問句,並且以Freebase作爲答案來源。該數據集共包含108,442條數據(包含關係標註),其中訓練集爲75910條(70%),驗證集爲10845條(10%),測試集爲21687條(20%)。

三、ComplexQuestions

提出該數據集的論文:Constraint-Based Question Answering with Knowledge Graph

作者本人的數據集地址:https://github.com/JunweiBao/MulCQA/tree/ComplexQuestions

ComplexQuestions數據集(2016年提出)是一個專門針對複雜問題而構建的數據集,在構建該數據集過程中,作者從一個實際使用的搜索引擎(具體哪個暫未知)中篩選並得到了878條可用的問答對。除了這878條數據,作者還從WebQuestions等數據集上額外選出了1222條數據,由此共得到了2100條複雜問題對。總體來說,該數據集共包含2100條問答對,其中訓練集個數爲1300條,測試集個數爲800條。

四、GraphQuestions

提出該數據集的論文:On Generating Characteristic-rich Question Sets for QA Evaluation

數據集地址:https://github.com/ysu1989/GraphQuestions

這是一個比較難的數據集(2016年提出),涉及較多比較複雜的邏輯,以Freebase作爲知識庫。該數據集在構建時先設計問題涉及的模式(即知識庫中的一個子圖),然後讓人根據圖改寫成自然語言題目。舉個例子:“the nine eleven were carried out with the involvement of what terrorist organizations?”

五、30M Factoid Questions

提出該數據集的論文:Generating Factoid QuestionsWith Recurrent Neural Networks: The 30M Factoid Question-Answer Corpus

數據集地址:https://academictorrents.com/details/973fb709bdb9db6066213bbc5529482a190098ce

該數據集是由模型自動構建的,包含30M的問答對。按照論文中的說法,問句質量和人類構建的質量相當,很有使用價值。

附:

KBQA相關工作系統總結:針對複雜問題的知識圖譜問答最新進展
WebQuestions相關介紹:SEMPRE–Semantic Parsing with Execution

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章