2019.09 EMNLP 2019
第一個大規模測試程序文本推理的大型數據集。
舉例:給出一個關於海灘侵蝕的段落,暴風雨的天氣會導致或多或少的侵蝕(或沒有影響)嗎?
鑑於相關段落,任務是回答問題。WIQA包含三種問題:對本段中提到的步驟的干擾;需要常識對的外部(區間外)擾動;無關(無影響)擾動。
將數據集作爲對社區的公開挑戰提出。
程序文本在語言中很常見,但由於它描述了一個動態變化的世界,因此難以理解。
儘管最近的程序文本理解系統可以回答有關發生了什麼事件的問題,但是他們並不清楚這些事件之間的影響程度。
而理解的一項重要測試是通過了解和追蹤一段影響鏈去預測如果某個過程受到某種方式的干擾,將會發生什麼。
WIQA包含爲379個段落準備的40.7k問題。爲了有效的創建問題,人們爲這379個段落創建了2107個影響圖(IGs),描述一個擾動如何正面或負面影響另一個。
舉例:
事件:海洋侵蝕
過程:1)風在海洋中產生波浪
2)海浪衝刷到海灘上
3)海浪襲擊了海灘上的岩石
4)岩石的微小部分折斷了
5)岩石變小了
(構建事件發生的過程,並定義事件鏈的各個環節的正負極影響,構建問題集合。)
從圖中的路徑中得出問題,每個問題都詢問一個節點中描述的更改如何影響另一個節點。 爲了約束任務,擾動通常是定性的(如風在吹),並且可能的影響僅限於對段落中提到的實體和事件的更改(如海浪更大)。
論文貢獻:提供了數據集;性能度量及其挑戰分析,以支持針對程序文本的反事實,文本推理的研究。