論文淺嘗 - ICLR2020 | Abductive Commonsense Reasoning

論文筆記整理:畢禎,浙江大學碩士,研究方向:知識圖譜、自然語言處理


  鏈接:https://arxiv.org/pdf/1908.05739.pdf

動機

儘管長期以來人們一直認爲歸因是人們在自然語言界線之間進行解釋和閱讀的核心,但很少有研究支持歸因自然語言推理和產生。這篇文章提出了第一個研究基於語言的歸納推理可行性的研究,引入了一個數據集ART,該數據集包含超過20k的常識性敘述上下文和200k的解釋。並且基於此數據集將兩個新任務概念化:(i)歸因法NLI:問答的任務,用於選擇更可能的解釋;(ii)歸因法NLG:用於自然地解釋給定觀測值的條件生成任務語言。在Abductive NLI上,模型最佳可達到68.9%的準確度,低於91.4%的人工性能。在Abductive NLG上,當前最好的語言生成器同樣不盡人意,因爲它們缺乏對人類來說微不足道的推理能力。儘管它們在涉及NLI的相關任務但定義更窄的任務上表現出色,文章的分析爲深入的預訓練語言模型無法執行的推理類型提供了新的見解。

 

任務定義

歸納(歸因)自然語言推理:將αNLI公式化爲由一對觀察結果和一對假設選擇組成的多項選擇問題。ART中的每個實例定義如下:

• O1$:在時間 t1的觀測現象;

• O2:在時間 t2>t1 處的觀測現象;

• h+:一個合理的假設,解釋了兩個觀測值O1和O2

• h-:觀測值和的不可信(不合理)的假設。

給定觀察結果和一對假設,αNLI的任務是選擇最合理的解釋(假設)。

 

歸納(歸因)自然語言生成:αNLG是在給出兩個觀測值 O1 和 O2 的情況下生成有效假設 h^+ 的任務,形式上該任務需要最大化 P(h+ |  O1, O2 )

 

             

圖 1 歸因推理的例子

 

常識歸因推理模型架構

歸納(歸因)自然語言推理:αNLI任務的一個特徵是需要共同考慮所有可用的觀測值及其常識,以識別正確的假設。形式上αNLI任務是選擇給定觀測值最可能的假設(公式1)。

             

使用以O1爲條件的貝葉斯規則重寫目標函數,得到(公式2):

             

論文爲αNLI制定了一套概率模型,這些模型對上述的公式進行了各種獨立性假設,從一個完全忽略觀測值的簡單基線開始,然後建立一個完全聯合的模型。這些模型在圖2中被描述爲貝葉斯網絡。從理論上講,“完全連接”模型可以將來自兩個可用觀測值的信息進行組合。

 

             

 

  圖2 概率框架中描述的圖形模型的圖示。

 

Hypothesis Only:最簡單的模型做出了一個強有力的假設,即假設完全獨立於兩個觀察值,即 (H ⊥ O1, O2),在這種情況下,目標只是最大化 P(H)

僅第一次(或第二次)觀察:接下來的兩個模型做出了較弱的假設:該假設僅取決於第一次O1或第二次O2觀察中的一個。

線性鏈:下一個模型同時使用兩個觀察值,但會獨立考慮每個觀察值對假設的影響,即它不會合並各個觀察值的信息。形式上該模型假設三個變量<O1,H,O2>形成線性馬爾可夫鏈,其中第二個觀測值在給定假設下(即 (O1 ⊥ O2|H))有條件地獨立於第一個觀測值。在這種假設下,目標是使公式2稍微簡單些(公式3):

             

全聯接性:最後最複雜的模型按照公式2共同對所有三個隨機變量進行建模,並且原則上可以合併兩個觀測值的信息以選擇正確的假設。

             

圖3 αNLG 任務

 

爲了說明線性鏈模型和完全連接模型如何同時考慮這兩種觀察結果之間的細微區別,作者舉了一個示例。觀察現象 O1:“卡爾拼命去商店尋找麪粉玉米餅作爲食譜。”和O2:“卡爾非常沮喪地離開了商店。”然後考慮兩個不同的假設,一個不正確的h1:“收銀員很粗魯”,一個正確的h2:“商店有玉米餅,但沒有面粉。”對於此示例,線性鏈模型可能會得出錯誤的答案,因爲它會分別對觀察結果進行解釋——將O1單獨分離,h1和h2似乎都可能是下一個事件,儘管每個事件都是先驗的。對於分離的O2,即在沒有O1的情況下,對於隨機抽取的購物者而言,H1的粗魯收銀員解釋似乎比卡爾的玉米餅選擇細節更有說服力。結合這兩個單獨的因素,線性鏈會選擇h1作爲更合理的解釋。就像完全連接模型中那樣,只有通過對卡爾在O1中的目標以及他對O2的沮喪進行推理,我們才能得出正確的答案h2作爲更合理的解釋。

實驗中,在性能最佳的神經網絡模型中編碼不同的獨立性假設。對於僅假設和單一觀察模型,可以通過簡單地將模型的輸入限制爲僅相關變量來強制執行獨立性。另一方面,線性鏈模型將所有三個變量作爲輸入,但是該模型限制了模型的形式以強制條件獨立。具體來說是學習了一個判別式分類器:

             

其中φ和φ'是產生標量值的神經網絡。

 

歸納(歸因)自然語言生成:給定                                          作爲token序列。αNLG任務可以以              來構建。

該模型還可以以背景知識K爲條件。參數化的模型可以最大程度減少ART中實例的負面對數可能性爲目標進行訓練:

             

數據集準備

ART是第一個用於研究敘事文本中的歸納推理的大規模基準數據集。它由約20K的敘述情境(成對的觀測值O1,O2)和超過200K的解釋假設組成。附錄中的表6總結了ART數據集的語料庫級統計。圖4顯示了ART的一些示例。

             

圖4 ART數據示例

 

實驗結果及分析

在ART數據集以及αNLI和αNLG的其他幾個baseline上,對經過微調的的預訓練語言模型進行評估。由於αNLI被構造爲二進制分類問題,因此選擇準確性作爲主要指標。對於αNLG,報告了BLEU、CIDEr、METEOR(等自動化指標的性能,並報告了人類評估結果

             

表1 基線和微調LM方法在ART測試集上的性能。

 

儘管在其他幾個NLP的基準數據集上表現出色,但基於BERT的最佳基準模型在ART上的準確度僅爲68.9%,而人類表現爲91.4%。人與最佳系統之間的巨大差距爲開發更復雜的歸納推理模型提供了廣闊的空間。實驗表明,在完全連接的模型上引入之前描述的其他獨立性假設通常會降低系統性能(參見表1)。

 

             

表2 生成模型在ART測試集上的性能。除GPT2-Fixed外,所有型號均在ART上進行了微調。

 

表2報告了有關αNLG任務的結果。在自動指標中,報告了BLEU-4、METEOR、ROUGE、CIDEr和BERT-Score((使用基於bert的無案例模型)。其中通過在AMT上進行衆包來建立人的結果。向人羣工作人員顯示了成對的觀察結果和生成的假設,並要求其標記假設是否解釋了給定的觀察結果。最後一欄報告人類評估得分。最後一行報告堅持的人類假設的得分,並作爲模型性能的上限。發現人工編寫的假設對96%的實例是正確的,而即使通過背景常識知識進行了改進,最好的生成模型也只能達到45%,這表明αNLG生成任務對於當前的狀態尤其具有挑戰性最好的文本生成器。

 

結論

本文提出了第一個基於語言的歸納推理的可行性的研究,概念化並介紹了歸納自然語言推理(αNLI)。這是一項新穎的任務,專注於敘事上下文中的歸納推理。該任務被表述爲多項選擇的回答問題。文章還介紹了歸納自然語言生成(αNLG)–這是一項新穎的任務,需要機器爲給定的觀察結果生成合理的假設。爲了支持這些任務,作者創建並引入了一個新的挑戰數據集ART,該數據集由20,000個常識性敘述以及200,000多個解釋性假設組成。在實驗中,基於最新的NLI和語言模型在此新任務上建立了全面的基線性能,導致了68.9%的準確度,與人類表現之間存在相當大的差距(91.4%)。αNLG的任務要艱鉅得多,儘管人類可以96%地寫出有效的解釋,但是最好的生成器模型只能達到45%。文章的分析爲深入的預訓練語言模型無法執行的推理類型提供了新的見解,儘管它們在涉及NLI的緊密相關但又不同的任務中表現出色,最後指出了未來研究的有趣途徑。作者們希望ART將成爲未來基於語言的歸納推理研究的具有挑戰性的baseline基準,並且αNLI和αNLG任務將鼓勵在AI系統中實現複雜推理能力的表示學習。

 


 

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章