介紹

Cosmos QA是一個35.6K問題的大規模數據集，需要基於常識的閱讀理解，被表述爲多項選擇題。它着重於閱讀人們日常敘事的不同線條之間的界限，詢問有關事件的可能原因或影響的問題，這些事件需要推理超出上下文的確切範圍。

目前在此數據集上模型最高準確率爲 68.4%，相對於人類表現的94%。

閱讀理解的相關數據集

SQuAD 2016
NEWSQA 2017
SearchQA 2017
NarrativeQA 2018
ProPara 2018
CoQA 2018
ReCoRD 2018
Dream 2019
MCTest 2013
RACE 2017
CNN/Daily Mail 2015
Children’s Book Test 2015
MCScript 2018
這些數據集中大多數集中在對上下文段落的相對明確的理解上，因此，如果有的話，數據集中相對較小或未知的部分需要常識性推理。
ReCoRD 例外，專爲通過常識性推理挑戰閱讀理解而設計。
ReCoRD論文
 ReCoRD評測網站

相對於ReCoRD，cosmosQA的特點：
COSMOS通過三個獨特的挑戰來補充ReCoRD：（1）我們的背景是來自Web博客而不是新聞，因此需要對日常事件而不是對新聞有價值的事件進行常識性推理。（2）ReCoRD的所有答案均包含在段落中，並被視爲實體。相反，在COSMOS中，
段落中未提及超過83％的答案，這給建模帶來了獨特的挑戰。（3）除了多項選擇評估外，COSMOS還可以用於生成評估

還有其他專門針對常識問題回答的數據集，比如
CommonsenseQA， 2018 （基於Concept）
Social IQA， 2019… （基於ATOMIC）
和這些相比，cosmos的獨特貢獻在於將閱讀理解與常識推理相結合，要求更爲複雜：多樣化和更長的上下文中進行上下文常識推理。

舉例

Paragraph: A woman had topped herself by jumping off the roof of the hospital she had just recently been admitted to. She was there because the first or perhaps latest suicide attempt was unsuccessful. She put her clothes on, folded the hospital gown and made the bed. She walked through the unit unimpeded and took the elevator to the top floor.

Question: What would have happened to the woman if the staff at the hospital were doing their job properly?

Options: (click the choice to see if it’s correct or not)

對比

commonsense QA

不需要上下文，僅需要常識
參考

SQuAD

僅需要閱讀材料的上下文，不需要常識
參考

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Cosmos QA：Machine reading comprehension with contextual commonsense reasoning

介紹

閱讀理解的相關數據集

舉例

對比

commonsense QA

SQuAD

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

梁寧讀《原則》後感的摘錄

excel文件轉json

Cosmos QA：Machine reading comprehension with contextual commonsense reasoning

值得學習的健康習慣

達摩院2020十大科技趨勢（摘錄）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結