論文淺嘗 - AAAI2020 | 通過句子級語義匹配和答案位置推斷改善問題生成

論文筆記整理:王春培,天津大學碩士。


 

鏈接:https://arxiv.org/pdf/1912.00879.pdf

動機

本文主要聚焦問答系統(Q&A)的反問題---問題生成(Question Generation,Q&G)。問題生成的目的是在給定上下文和相應答案的情況下生成語義相關的問題,問題生成任務可分爲兩類:一類是基於規則的方法,即在不深入理解上下文語義的情況下手動設計詞彙規則或模板,將上下文轉換成問題。另一類是基於神經網絡的、直接從語句片段中生成問題詞彙的方法,包括序列-序列模型(seq-to-seq)、編碼器解碼器(encoder-decoder)等。本文討論的是後一種基於神經網絡的問題生成方法。

目前,基於神經網絡的問題生成模型主要面臨以下兩個問題:(1)錯誤的關鍵詞和疑問詞:模型可能會使用錯誤的關鍵詞和疑問詞來提問;(2)糟糕的複製機制:模型複製與答案語義無關的上下文單詞。本文旨在解決以上兩個問題。

亮點

本文的亮點主要包括:

(1)以多任務學習的方式學習句子級語義

(2)引入答案位置感知。

概念及模型

本文提出,現有的基於神經網絡的問題生成模型之所以出現上述兩個問題是因爲:

(1)解碼器在生成過程中可能只關注局部詞語義而忽略全局問題語義;

(2)複製機制沒有很好地利用答案位置感知特徵,導致從輸入中複製與答案無關的上下文單詞。爲了解決這兩個問題,作者提出以多任務學習的方式學習句子級語義,以及引入答案位置感知。

模型體系結構

下圖爲具有句子級語義匹配、答案位置推斷和門控融合的神經問題生成模型圖:

給定包含答案 A 的語句 X=[x1,x2,...,xm],基於連續擴展的語句,生成與 X 和 A 語義匹配的問題 Y。與文獻 [1] 的方法一致,利用擴展的語義和詞彙特徵、部分語音標籤、答案位置特徵等作爲 seq-to-seq 模型嵌入層的輸入,利用雙向 LSTM 作爲編碼器,通過鏈接前向隱藏狀態和後向隱藏狀態生成句子表示 H=[h1,h2,...,hm]:

答案感知門控融合:使用兩個由 Sigmoid 函數計算的信息流門來控制句子向量和答案向量的信息流,將答案起始位置的隱藏狀態作爲答案向量 h_a,使用雙向 LSTM 編碼整個答案語義。

解碼器(Decoder):以編碼器的隱藏狀態 H=[h1,h2,…,hm] 作爲上下文和改進的答案感知句子向量 z 作爲初始隱藏狀態 s1,一層單向 LSTM 用先前解碼的單詞作爲輸入wt更新其當前隱藏狀態st。

利用注意力機制將當前解碼器狀態 s_t 賦給編碼器上下文 H=[h1,h2,…,hm]。使用歸一化處理後的注意向量α_t 的加權求和結果計算上下文向量 c_t。基於詞典 V,計算問題單詞 y_t:

其中,f 由兩層前饋網絡實現。

注意力機制:使用注意力機制生成大小爲 V 的單詞,或從輸入語句 X 中複製單詞。在生成問題詞 y_t 時,考慮到當前解碼器的隱藏狀態 s_t 和上下文向量 c_t,計算一個複製開關來確定生成的詞是從字典生成的還是從源語句複製的。

生成模式概率和複製模式概率相結合,得到最終的單詞分佈:

使用負對數似然來計算序列-序列的損失:

句子級語義匹配:通過門控融合得到了改進的答案感知句子向量 z。對於解碼器(單向 LSTM),採用最後一個隱藏狀態 s_n 作爲問題向量。訓練兩個分類器,分別將非語義匹配對 [z,S』_n](S,Q』)和 [z』,S_n](S,Q)與語義匹配對 [z,S_n](S,Q)區分開來,其中 z』和 s』是同一段落中隨機抽取的不匹配句子和問題的向量。

將兩個分類器的二元交叉熵之和作爲句子級語義匹配損失:

具體流程如下所示:

答案位置推斷:引入雙向注意力流網絡推斷答案位置,如下圖:

採用句子對問題注意和問題對句子注意來強調每個句子詞和每個問題詞之間的相互語義關聯,並利用相似的注意機制得到了問題感知的句子表徵 H 和句子感知的問題表徵 S:

然後,使用兩個兩層雙向 LSTMs 來捕獲以問題爲條件的句子詞之間的相互作用。答案起始索引和結束索引由輸出層使用 Softmax 函數預測:

其中,f 函數是一個可訓練的多層感知(MLP)網絡。使用真值答案起始標記 y1 和結束標記的負對數似然來計算損失:

爲了在多任務學習方法中聯合訓練生成模型和所提出的模塊,訓練過程中的總損失函數記爲:

實驗

作者在 SQuAD 和 MARCO 兩個數據集上進行了實驗,使用 NQG++[1]、Point-generator[2] 以及 SOTA 模型、門控自注意力機制模型等作爲基線對比算法。表 3 給出了 SQuAD 和 MS-MARCO 數據集上不同模型的主要指標,在文章所述的實驗條件下,本文提出的模型在全部主要指標上都優於基線對比算法。

總結

與現有的問答系統、問題生成模型的處理方式不同,本文並不是通過引入更多的有效特徵或者改進複製機制本身等來改進模型效果,而是直接在經典序列-序列模型(seq-to-seq)中增加了兩個模塊:句子級語義匹配模塊和答案位置推斷模塊。此外,利用答案感知門控融合機制來增強解碼器的初始狀態,從而進一步改進模型的處理效果。

 


 

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章