Social IQA:Commonsense Reasoning about Social Interactions

EMNLP 2019.9

論文及數據:https://maartensap.github.io/social-iqa/
參考代碼:https://github.com/huggingface/transformers

概覽

介紹了Social IQA,第一個面向社會情況常識推理的大規模基準,包含38000個覆蓋日常情形中社交情感和智慧的多選題。(涵蓋了關於在情境中描述人們的行爲的各種類型的推斷)

比如:Q:喬丹想告訴特雷西一個祕密,所以喬丹向特雷西靠近,爲什麼喬丹這麼做?

A:爲了保證別人聽不到。

通過衆包,收集常識性問題以及有關社交互動的正確和錯誤答案; 設計新的框架:通過要求工作人員爲不同但相關的問題提供正確答案,來緩解錯誤答案的比例。

實驗結果表明,對於基於預先訓練的語言模型的現有問答模型,我們的基準測試具有挑戰性,與人類表現差距20%。

值得注意的是,我們進一步將Social IQA建立爲常識知識的遷移學習的資源,從而應用在多項常識推理任務上,取得比原來的最好效果更好的成績。(比如Winograd Schemas,COPA)。

介紹

多選題分類:關於動機解釋的,關於接下來發生什麼事情,正常情感反應。

(正確回答問題需要對動機,情緒反應,或可能的前後動作)

(wants, reactions, descriptions, motivations, needs, effects;但實際上,社交IQA中,問題多集中在某人之後的感受和接下來可能做什麼有關)

書面語料庫中知識的偏差限制了可以學習的常識知識的範圍。

基於AI系統,此數據集仍然具有挑戰性,最佳性能基準達到64.5%(bert-large)。

模型面臨着明顯與觀察到的上下文有關的問題,在三個競爭選擇中可以找到正確的答案。

根據設計,這些問題需要對情境的社會原因和影響進行推理,符合AI助手與人類用戶交互所需的智能類型。

(比如知道老人跌倒了要扶起來)

(與腳本事件預測區別在於問答類型的豐富,選項的減少,關注重點–從環到背景常識知識的改變)

這些推斷的進行能夠讓我們成爲社交場合的專家,並且心智論,對信念、動機進行推理的能力和理解其他人的需求密切相關。

賦予這種類型的智能機器是AI長期以來難以實現的目標。

ATOMIC

作爲任務創建的起點,借鑑了ATOMIC的社會常識知識去播種我們的情景和問答類型。ATOMIC是一個大型知識圖,其中包含有關24k短事件的起因和結果的推論知識。

創建數據庫

事件定義

爲了涵蓋各種社會情況,使用ATOMIC的基本事件作爲上下文創建的提示。作爲預處理步驟,我們運行MTurk任務:要求工作人員將通過添加名稱,修復潛在的語法錯誤以及填寫佔位符,將ATOMIC事件變成一個句子。

(一個事件的標註花了0.35美元)

上下文、問題及答案創建

運行一個任務,其中註釋者創建完整的上下文問題-答案三元組。自動生成覆蓋ATOMIC的9大常識推理維度的問題示例。使用事件句子和推理問題提示衆包者,以使其成爲更詳細的上下文,以及如果需要提高的個性化的問題的編輯版本,並且還要求工人提供兩個可能的正確答案。

衆包特殊規則

除了正確答案外,還會收集四個正確答案選項,其中我們會過濾兩個選項。爲了創建對模型不利但對人類容易的不正確選項,我們使用兩種不同的方法收集。專門設計這兩種方法是爲了避免註釋僞像的實體類型不同,從而使模型更難以依靠數據偏差。我們集成和過濾答案選項,並通過人工評估任務驗證最終的質量檢查元組。

手寫錯誤答案

第一種方法涉及得到需要對上下文進行推理的手寫不正確答案:這些答案在主題、長度和樣式方面都與正確答案類似,但實際上是錯誤的。其中的兩個答案是在同一MTurk任務期間與原始上下文,問題和正確答案一起收集的。 我們將這些負面回答稱爲手寫的錯誤答案。

問題轉換答案(QSA)

我們這樣做是爲了避免在候選答案中出現認知偏差和註釋僞影,例如由於撰寫錯誤答案或否定詞而引起的認知偏差和註釋僞影。

在此衆包任務中,我們提供與原始問題相同的上下文,以及從不同但相似的ATOMIC維度自動生成的問題,並要求工人寫出兩個正確答案。

通過包含對相同上下文的不同問題的答案,我們確保這些對抗性回答具有正確答案的風格特徵,並且與上下文主題密切相關,同時仍然是錯誤的,從而使模型難以簡單地執行模式匹配。

創建QA組

作爲流程的最後一步,我們將數據彙總爲三項多項選擇題。 根據Zellers等人的啓發,對於由衆包工作者貢獻的每個創建的情境問題對,我們選擇一個隨機的正確答案和最少包含正確答案的錯誤答案。

多次覈實表決;應用了輕量級的對抗過濾器,通過使用深度樣式分類器來刪除開發和測試集上更簡單的示例,從而使任務更具挑戰性。

爲了獲得人類的績效,運行了一項單獨的任務,要求三名新員工從900個開發人員的隨機子集中選擇正確答案。900個測試示例,這些子集上的人類績效分別是87%和84%。

結論

介紹了Social IQA,這是社會常識的第一個大型基準。社交IQA由38k個多項選擇題組成,涵蓋了有關在情境中描述人們的行爲的各種推斷。

設計了一個用於收集質量檢查對的衆包框架,可通過對抗性問題切換方法來減少否定答案的文物。儘管人類的性能接近90%,但基於大型預訓練語言模型的計算方法只能達到65%的精度,這表明這些社會推理仍然是AI系統的挑戰。

除了提供新的基準外,還演示瞭如何將學習從Social IQA轉移到其他常識性挑戰,可以如何產生重大改進,在COPA和Winograd Schema Challenge數據集上均獲得最新的最新性能。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章