Social IQA：Commonsense Reasoning about Social Interactions

EMNLP 2019.9

論文及數據：https://maartensap.github.io/social-iqa/
參考代碼：https://github.com/huggingface/transformers

概覽

介紹了Social IQA，第一個面向社會情況常識推理的大規模基準，包含38000個覆蓋日常情形中社交情感和智慧的多選題。（涵蓋了關於在情境中描述人們的行爲的各種類型的推斷）

比如：Q：喬丹想告訴特雷西一個祕密，所以喬丹向特雷西靠近，爲什麼喬丹這麼做？

A：爲了保證別人聽不到。

通過衆包，收集常識性問題以及有關社交互動的正確和錯誤答案；設計新的框架：通過要求工作人員爲不同但相關的問題提供正確答案，來緩解錯誤答案的比例。

實驗結果表明，對於基於預先訓練的語言模型的現有問答模型，我們的基準測試具有挑戰性，與人類表現差距20%。

值得注意的是，我們進一步將Social IQA建立爲常識知識的遷移學習的資源，從而應用在多項常識推理任務上，取得比原來的最好效果更好的成績。（比如Winograd Schemas，COPA）。

介紹

多選題分類：關於動機解釋的，關於接下來發生什麼事情，正常情感反應。

（正確回答問題需要對動機，情緒反應，或可能的前後動作）

（wants, reactions, descriptions, motivations, needs, effects；但實際上，社交IQA中，問題多集中在某人之後的感受和接下來可能做什麼有關)

書面語料庫中知識的偏差限制了可以學習的常識知識的範圍。

基於AI系統，此數據集仍然具有挑戰性，最佳性能基準達到64.5%（bert-large）。

模型面臨着明顯與觀察到的上下文有關的問題，在三個競爭選擇中可以找到正確的答案。

根據設計，這些問題需要對情境的社會原因和影響進行推理，符合AI助手與人類用戶交互所需的智能類型。

（比如知道老人跌倒了要扶起來）

（與腳本事件預測區別在於問答類型的豐富，選項的減少，關注重點–從環到背景常識知識的改變）

這些推斷的進行能夠讓我們成爲社交場合的專家，並且心智論，對信念、動機進行推理的能力和理解其他人的需求密切相關。

賦予這種類型的智能機器是AI長期以來難以實現的目標。

ATOMIC

作爲任務創建的起點，借鑑了ATOMIC的社會常識知識去播種我們的情景和問答類型。ATOMIC是一個大型知識圖，其中包含有關24k短事件的起因和結果的推論知識。

創建數據庫

事件定義

爲了涵蓋各種社會情況，使用ATOMIC的基本事件作爲上下文創建的提示。作爲預處理步驟，我們運行MTurk任務：要求工作人員將通過添加名稱，修復潛在的語法錯誤以及填寫佔位符，將ATOMIC事件變成一個句子。

（一個事件的標註花了0.35美元）

上下文、問題及答案創建

運行一個任務，其中註釋者創建完整的上下文問題-答案三元組。自動生成覆蓋ATOMIC的9大常識推理維度的問題示例。使用事件句子和推理問題提示衆包者，以使其成爲更詳細的上下文，以及如果需要提高的個性化的問題的編輯版本，並且還要求工人提供兩個可能的正確答案。

衆包特殊規則

除了正確答案外，還會收集四個正確答案選項，其中我們會過濾兩個選項。爲了創建對模型不利但對人類容易的不正確選項，我們使用兩種不同的方法收集。專門設計這兩種方法是爲了避免註釋僞像的實體類型不同，從而使模型更難以依靠數據偏差。我們集成和過濾答案選項，並通過人工評估任務驗證最終的質量檢查元組。

手寫錯誤答案

第一種方法涉及得到需要對上下文進行推理的手寫不正確答案：這些答案在主題、長度和樣式方面都與正確答案類似，但實際上是錯誤的。其中的兩個答案是在同一MTurk任務期間與原始上下文，問題和正確答案一起收集的。我們將這些負面回答稱爲手寫的錯誤答案。

問題轉換答案（QSA）

我們這樣做是爲了避免在候選答案中出現認知偏差和註釋僞影，例如由於撰寫錯誤答案或否定詞而引起的認知偏差和註釋僞影。

在此衆包任務中，我們提供與原始問題相同的上下文，以及從不同但相似的ATOMIC維度自動生成的問題，並要求工人寫出兩個正確答案。

通過包含對相同上下文的不同問題的答案，我們確保這些對抗性回答具有正確答案的風格特徵，並且與上下文主題密切相關，同時仍然是錯誤的，從而使模型難以簡單地執行模式匹配。

創建QA組

作爲流程的最後一步，我們將數據彙總爲三項多項選擇題。根據Zellers等人的啓發，對於由衆包工作者貢獻的每個創建的情境問題對，我們選擇一個隨機的正確答案和最少包含正確答案的錯誤答案。

多次覈實表決；應用了輕量級的對抗過濾器，通過使用深度樣式分類器來刪除開發和測試集上更簡單的示例，從而使任務更具挑戰性。

爲了獲得人類的績效，運行了一項單獨的任務，要求三名新員工從900個開發人員的隨機子集中選擇正確答案。900個測試示例，這些子集上的人類績效分別是87%和84%。

結論

介紹了Social IQA，這是社會常識的第一個大型基準。社交IQA由38k個多項選擇題組成，涵蓋了有關在情境中描述人們的行爲的各種推斷。

設計了一個用於收集質量檢查對的衆包框架，可通過對抗性問題切換方法來減少否定答案的文物。儘管人類的性能接近90%，但基於大型預訓練語言模型的計算方法只能達到65%的精度，這表明這些社會推理仍然是AI系統的挑戰。

除了提供新的基準外，還演示瞭如何將學習從Social IQA轉移到其他常識性挑戰，可以如何產生重大改進，在COPA和Winograd Schema Challenge數據集上均獲得最新的最新性能。

Social IQA：Commonsense Reasoning about Social Interactions

EMNLP 2019.9

概覽

介紹

ATOMIC

創建數據庫

事件定義

上下文、問題及答案創建

衆包特殊規則

手寫錯誤答案

問題轉換答案（QSA）

創建QA組

結論

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

梁寧讀《原則》後感的摘錄

excel文件轉json

Cosmos QA：Machine reading comprehension with contextual commonsense reasoning

值得學習的健康習慣

達摩院2020十大科技趨勢（摘錄）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結