0. 背景

機構：Facebook
作者：Patrick Lewis
發佈地方：arXiv
面向任務：問題生成
論文地址：https://arxiv.org/abs/1906.04980
論文代碼：https://github.com/facebookresearch/UnsupervisedQA

0.1 摘要

本文嘗試探尋以下2個問題。
(1)對於抽取式問答(EQA)，訓練數據集的質量要求是怎麼樣的。
(2)無監督的抽取式問答是否可能。
針對上述問題，本文提出以下方案：
(1)先用無監督方法生成文本內容(context)、問題(question)、答案(answer)三元組。
(2)基於上述三元組自動合成抽取式問答的訓練集。

上述三元組的生成步驟如下：

從海量文檔中隨機選取段落(context paragraphs)
再從段落中隨機地選出名詞短語(nou phrases)或命名實體作爲答案
將段落中的答案轉爲完形填空形式的cloze questions
再將cloze questions轉爲自然語言問題

本文提出並對比了多種完形填空問句到自然語言問句轉換的無監督方法，其中包括(1)基於自然問句非對齊語料和完形填空問句的無監督機器翻譯模型(2)基於規則的方法。通過實驗發現，現代的QA模型在本文合成的數據集上訓練之後，竟然可以回答自然語言方式的問題。本文證明了，即使不使用任何的SQuAD數據集，本文的方法也能夠讓現代模型在SQuADv1上取得56.4 F1，對於答案是命名實體類型的數據集(該數據是SQuADv1的子集，其答案都是命名實體)則可以獲取更高的64.5 F1，這超出了早期的監督式學習模型。

1. 介紹

抽取式問答(EQA)是問答的一種，對於一個問題，其答案是給定文檔中的一個片段。即，答案在給定的文檔中。典型的benchmark dataset是SQuAD(包括SQuAD 1.1和SQuAD 2.0)，但是其實現在(2019年10月8日)在這兩個數據集的榜單均已經被刷爆了，即現有模型已經顯著超越人類的標註結果。近期還有Natural Questions(Kwiatkowski et al., 2019)數據集，Natural Questions，NQ數據集詳情。上述數據集都包含了大量的訓練數據，但是對於一個新領域或者新的語種，收集訓練集是需要大量人類和物力的。那麼，如果手頭上沒有任何可用的訓練數據集呢？又不想耗費巨大資源手動收集訓練集，這時候該怎麼辦？

本文的工作就是爲了解決上述問題，所提出的解決方案是探索使用無監督EQA。在無監督EQA中，不需要事先人工收集問題、文檔和答案這樣的三元組。本文將EQA轉爲無監督的問題生成：如果有一個方法，不需要使用監督QA，就能夠在給定文檔後生成準確的問題，那麼就可以利用生成的問題訓練一個QA系統。這個方法可以直接利用QA領域的最新進展，比如新的模型框架和預訓練方法。這個方法具有很大的靈活性和可拓展性。本文所提出的方法也能夠用於在半監督下訓練數據的增強。

本文方法的示意圖所Figure 1所示：

生成EQA訓練集有3個步驟：
(1)在目標領域(比如本文這裏是英文的Wikipedia)中採樣一個段落(paragraph)
(2)使用預訓練的方法組件，如NER或者名詞識別器識別出上述段落文本中的候選答案，組成候選答案集。這裏使用到的組件方法雖然是監督式的，但是沒有用到形如(question，answer)或(question，context)的對齊數據。對於給定的候選答案和原始段落文本，抽取出fill the blank cloze question，即從候選答案和原始段落中生成完形填空問題。
(3)採用無監督的完形填空問題-自然問句轉換器(cloze-to-natural question translator)，將上述的完形填空問題轉爲自然問句。

上述3個步驟中，將完形填空問題轉爲自然問句是最具有挑戰性的。可以基於複雜的規則((Heilman and Smith, 2010)完成這項轉換。這些規則一方面還有語言上的限制，比如只能處理英文，另一方面在QA系統上的性能表現也較爲孱弱。當需要處理其他領域或者語種時，需要大量的工程師工作來開發類似的算法。該方法特定性太強。如果在完形填空問題轉爲自然問句這個任務上引入監督式方法((Du et al. 2017; Du
and Cardie 2018; Hosking and Riedel 2019, inter alia)則由於需要人工標註而與初衷不符。本文對於該任務的解決方案源於無監督機器翻譯(Lample et al., 2018, 2017; Lample and Conneau, 2019; Artetxe et al., 2018)。其中，我們需要收集大量的自然語言形式的問句語料和未對齊的的完形填空問題語料，並聯合在線back-translation和de-noising auto-encoding技術訓練一個seq2seq模型以實現自然問句和完形填空問題之間的映射。

在實驗過程中發現，在本文無監督QA的基礎上聯合使用當下先進的QA模型框架能夠取得比早期監督方法((Rajpurkar et al., 2016)更好的結果。實驗發現通過詞的移除和翻轉而產生的(非自然的)的完形填空問題比基於規則的方法性能更好。而無監督的seq2seq模型均比移詞或翻轉詞的引入噪聲型和基於規則的系統表現更好。實驗中還證明本文的方法能夠用於少樣本學習，比如只用32個標註樣本F1值就可以取得59.3，而不使用本文方法F1值只能爲40.0。

總結一下，本文有以下貢獻：
(1)首次在無監督QA中提出解決方案，將無監督QA任務轉爲無監督的完形填空變換任務(unsupervised cloze translation)。其中使用的關鍵技術是無監督機器翻譯。
(2)廣泛地實驗驗證多種完形填空問題轉換算法和假設
(3)通過實驗證明本文方法在EQA中少樣本學習的有效性

2. 無監督抽取式問答

抽取式問答中問題爲 $q$ ，相關的段落文本內容 $c$ ，問題對應的答案 $a=(b,e)$ ，其中 $b和e$ 分別表示 $c$ 中的索引位置。對於這種無監督EQA，本文的方案由2階段組成：
(1)開發一個生成模型 $p(q,a,c)$ ，這期間不涉及使用監督QA。
(2)再訓練一個判別模型 $p_{r}(a | q, c)$ ，訓練過程使用生成模型 $p$ 生成訓練集。生成器 $p(q, a, c)=p(c) p(a | c) p(q | a, c)$ 會在反向產生數據，先通過 $p(c)$ 採樣一段文本，再通過 $p(a | c)$ 計算文本範圍內的答案，最後通過$ p(q | a, c)$得到該答案和文本所對應的問題。

2.1 文本和答案生成

對給定的文檔語料，利用文本生成模型 $p(c)$ 從中均勻採樣出一個長度合適的段落 $c$ 。通過 $p(a|c)$ 生成答案，這個步驟包含了什麼是好答案的先驗概率。這裏對 $p(a|c)$ 提出2個簡單的變體：

名詞短語：
在段落 $c$ 中抽取出所有的名詞短語，並從這個集合中均勻採樣來生成一個可能的答案。這需要塊處理算法(chunking algorithm)。

命名實體：
可以進一步限制候選答案爲命名實體。爲此，需要基於NER系統抽取出全部的命名實體提及，再均勻採樣。這樣也降低了問題的多樣性。其有效性參見3.2節。

2.2 問題生成

本文認爲(可以商榷，辯證討論)QA系統中核心難點在於問題和答案之間的建模。在這個基礎上，問題和答案之間的建模可以通過問題生成器 $p(q|a,c)$ 捕獲到。我們將這一步分爲2個步驟：
(1)完形填空生成 $q^{\prime}=\operatorname{cloze}(a, c)$
(2)轉換translation， $p(q|q^{\prime})$

2.2.1 完形填空生成

完形填空問題(Cloze questions)是將答案遮蔽的陳述句。完形填空生成的第一步是：縮小上下文context的範圍使其能夠粗略匹配真實問題。一個自然的想法是選用答案周圍的句子。這種方式的結果是"For
many years the London Sevens was the last tour nament of each season but the Paris Sevens became the last stop on the calendar in ___"。

可以通過限制答案周圍的子類以進一步降低長度。比如基於英語的詞法分析器可以將上述結果句子進一步縮減爲"the Paris Sevens became the last stop on the calendar in ___"。

2.2.2 完形填空轉換

在生成上述完形填空 $q^{\prime}$ 後，可以進一步轉爲更貼近真實QA任務的形式。本文這裏探索4種方法，

Identity Mapping(恆等映射)：
我們認爲完形填空問題本身提供了能夠學習QA行爲的信息。爲了驗證這個設想，本文采用Identity Mapping作爲完形填空轉換的baseline。爲能夠產生"questions"(與真實QA任務中使用相同詞典)，用wh*單詞(隨機選擇或簡單的啓發式規則，參見2.4節)替換被遮蔽的token。

Noisy Clozes(噪聲化的完形填空)：
描述完形填空問題和自然問題之間的區別的一種方法是把這種差別作爲一種干擾形式。爲提升對擾動的魯棒性，可以在完形填空問題中引入噪聲。具體操作如下：刪除 $q^{\prime}$ 中被遮蔽的token，再對其使用一個簡單的噪聲函數(Lample et al. (2018)，在頭部添加一個wh*單詞(隨機選擇或簡單的啓發式規則，參見2.4節)和在末尾添加一個問題mark。其中噪聲函數由word dropout、詞序組合和詞遮蔽這三個操作組成。如此可以(至少對於SQuAD)簡單地學習一個函數來識別與問題有n-gram重疊的答案片段，且對詞序的擾動具體一定的容錯能力。

Rule-Based(基於規則)：
將句子中的答案嵌入到一個 $(q,a)$ 對中可以被理解爲一種帶有wh-移動和wh-詞類型依存選擇的句法轉換。對於英文，現有的軟件已經支持該功能，本文使用Heilman and Smith (2010) 提出的陳述句-問句 生成器。該生成器使用一系列的規則生成候選問句，再使用一個排序系統選出最佳結果。

Seq2Seq：
上述方法要麼需要巨大的工程量和先驗知識(基於規則)，要麼生成結果與自然句子仍然相距較大(identity, noisy clozes)。本文通過一個無監督的seq2seq模型解決上述2個問題。該seq2seq模型能夠實現完形填空問題和自然問題之間的轉換。更多細節參見2.4節。

2.3 問答

通過生成模型得到抽取式問答的答案，大概有以下2種方法：

訓練一個單獨的QA系統：
對於可用的任何QA框架中，訓練集都來自於本文生成器的生成。但是，生成器生成的數據不太可能達到真實QA數據集的質量，所以希望QA模型能夠學習到基本的QA行爲。

使用後驗概率：
另一個抽取答案 $a$ 的方法是求最大後驗概率 $p(a | c, q)$ 。假設在給定文本的前提下，答案概率= $p(a|c)$ ，這等價於計算 $\arg \max _{a^{\prime}} p\left(q | a^{\prime}, c\right)$ 。通過試驗每個候選答案生成該問題的概率即可。該方法與Lewis and Fan (2019)中的監督方法類似。

2.4 無監督完形填空轉換

爲了訓練一個seq2seq模型以實現完形填空轉換，這裏借鑑無監督機器翻譯(NMT)領域中的近期成果。這些方法的核心是沒有平行語料的源數據和目標語言的句子。這些語料中，源句子不存在任何到目標語言的翻譯句子，反之亦然。具體地，在本文的配置上，我們致力於學習一個能夠映射自然問題(target)和完形填空問題(source)的函數，而無需平行語料。本文僅需要大量的完形填空問題 $C$ 和自然問題 $Q$ 。

完形填空語料：
完形填空語料 $C$ 的創建是依照2.2.2節中的方法。我們將名稱短語(NP)和命名實體(NE)視爲答案片段(answer spans)。完形填空問題邊界集(cloze question boundaries set)是包含答案的句子或從句。從Wikipedia 段落中隨機採樣5M的完形填空問題，並基於每個答案片段和完形填空邊界創建一個語料 $C$ 。當存在答案實體類型信息(即. NE標籤)，則使用特定類型的mask來遮蔽token，以表示5種高級的答案類型。即用5種mask來區分答案類型。更多細節參考附件A.1。

自然問題語料：
至於自然問題的收集，則是從英文網頁中爬取獲得。對於爬取的網頁，選取幾個以(“how much”, “how many”, “what”,
“when”, “where” and “who”)開頭，並以問句形式結尾的句子。同時丟棄帶有重複問句結尾符號的句子，比如以"?!"結尾的句子。同時也丟棄長度大於20個token的句子。如此操作並去重後最終獲得100M+的英文問句。語料 $Q$ 則是從中再採樣出的5M問句，其中每個以wh*開頭的問句數量是相等的。

與Lample et al. (2018)一樣，使用 $C$ 和 $Q$ 訓練變換模型 $p_{s \rightarrow t}\left(q | q^{\prime}\right)$ 和 $p_{t \rightarrow s}\left(q^{\prime}|q \right)$ 。其中模型的訓練聯合使用了denoising autoencoding的域內訓練和online-backtranslation的跨域訓練。這一定程度上也可以視爲一種風格轉換任務，與Subra-
manian et al. (2018)相似。在推斷階段，自然問句通過 $\arg \max _{q} p_{s \rightarrow t}\left(q | q^{\prime}\right)$ 生成。更多的實驗細節參考附件A.2。

Wh*的啓發式：
爲"identity"和"noisy cloze"的問題生成器提供合適的wh*單詞，本文引入一種簡單的啓發式規則，以將每個答案類型映射到最合適的wh*單詞。比如，答案類型爲TEMPORAL則映射爲when。實驗過程中，發現無監督神經機器翻譯的變換函數有時候會映射錯，即將答案類型映射到不適當的wh*單詞，所以也採用wh*啓發式方法來生成問句。對於神經機器翻譯模型，在訓練期間採用啓發式在目標問句的頭部添加wh*所映射的答案類型。比如，問句以when起始，則在頭部添加“TEMPORAL。更多細節參考附件A.3。

3. 實驗

實驗過程主要包含
(1)檢驗QA系統在沒有使用 $(q,a)$ 對數據時候的性能表現
(2)本文方案與其他監督方法的對比
(3)本文方案與其他不需要訓練集的無監督方法的對比
(4)不同設計策略對QA系統性能的影響
(5)驗證本文方法是否能夠應用於少樣本學習
(6)評估無監督的NMT是否可以作爲生成問題的有效方法

3.1 無監督QA實驗

對於合成的數據集，我們採用以下2種QA模型進行訓練：finetuning BERT和BiDAF+Self Attention。對於最大後驗概率法，從句子及其從句中抽取出完形填空問題，再使用神經機器翻譯NMT方法估計 $p(q|c,a)$ 。評測指標，使用的是標準的完全匹配(EM)和F1值。

無監督訓練過程，由於假設無法獲取到dev set，所以QA模型訓練的停止條件是QA系統的性能指標在合成的數據中的留存數據集上穩定不變。此外，還採用SQuAD中的dev set來評估模型中哪個組成成分更爲重要(參見3.2節)。爲保留SQuAD test data的完整性，在向test server提交結果的時候僅提交本文最佳的系統。

本文方案與公開的baseline做了對比。Rajpurkar et al. (2016)提出在監督邏輯迴歸模型引入特徵工程，並採用一個滑動窗口查找單詞與問句的重疊作爲答案。Kaushik and Lipton (2018)採用監督方法訓練的模型無視輸入問句信息，而僅簡單地從文檔段落中抽取出最相似的答案片段。據我們所知，本文是第一個專門針對SQuAD非監督QA的工作。Dhingra et al. (2018)集中研究的是半監督QA，但確實公佈了一個無監督的評估結果。爲了對比的公平性，本文利用他們公開的數據重新實現了他們的方法，並訓練了BERT-Large的一個變體。他們的方法也使用完形填空問題(cloze questions)，但是沒有用到轉換操作(translation)，且嚴重依賴Wikipedia文章的結構。

本文提出的方法在SQuAD的test set能夠取得的最好結果是54.7F1，而由5個模型(不同種子點)做集成能夠進一步取得56.4F1。Table 1記錄了baselines、監督學習及其無監督QA模型在SQuAD 上的表現。

從中可以看出，本文的方案顯著超出baseline系統及其BiDAF+SA[Dhingra et al. (2018)]，並超過早期的監督式系統。

3.2 消融研究和分析

爲了瞭解不同組成部分對於結果性能的貢獻，本文在SQuAD dev set上進一步做了消融研究。主要對BERT-base和BiDAF+SA這兩個模型進行消融研究。消融研究結果如Table 2所示。

最大後驗概率 vs. 在生成數據集上訓練：
將最大後驗概率與BERT-base和BiDAF+SA對比發現，在QA模型上訓練比採用最大問句似然要有效得多。這部分歸因於QA模型能夠歸納答案片段，從而在測試時返回的答案並不總是命名實體提及(named entity mentions)。

答案先驗知識的影響：
從上述Table 2結果可以看出，在答案先驗知識上，命名實體(NEs)比名詞短語(NPs)更有效。在相同的BERT-base模型上，用引入NEs信息相比引入NPs信息平均可以提升8.9F1。Rajpurkar et al. (2016)估計SQuAD中52.4%的答案是NEs，而84.2%的答案是NPs(設定NEs是NPs的子集)。但是根據本文的研究發現，每段文本中大概有14NEs，而NPs有33個，因此在訓練過程中採用NEs可以降低候選答案的搜索空間。

問題長度和重疊程度的影響：
從Figure 2可以看出，採用從句進行生成會導致生成的問題更短，且與原始上下文的公共子序列也更短。這其實更貼近SQuAD問句的分佈。降低完形填空問題的長度有助於translation操作生成更簡單且更精確的問題。在BERT-base上採用從句比採用整個句子平均要高出 4.0 F1。採用"noisy cloze"的完形填空轉換方式生成的問題比NMT更短，同時也更短的公共子序列(由於詞擾動噪音)。

完形填空轉換方式的影響：
噪聲的效果類似正則化，在BERT-base上對比"noisy"轉換方式和"identity"的轉換方式，發現前者平均高出後者 9.8 F1。無監督的NMT助攻效果更佳，又比"noisy"的轉換方式平均高出 1.8 F1。

QA模型的影響：
在QA模型上的對比，再次說明BERT-base比BiDAF+SA更優秀。BERT-Large(不在Table 2中)則更是比本文最好的模型高出 6.9 F1。

基於規則生成數據的影響：
採用基於規則(RB)系統生成訓練集訓練出的QA模型，其結果性能無法與NMT方法相比。爲了驗證是否由於答案類型不同而導致的，我們做了以下處理
(1)RB系統中生成的問題如果與本文的(NE類型)答案不一致，則去除
(2)本文生成的問題如果與RB系統中的答案類型(NE)不一致，則去除

Table 3的結果表明當RB系統中的問題按照文本答案類型進行一次篩選後，可以性能可以提升。而如果用RB系統的數據反過來限制本文的數據生成方案則會降低性能。

RB系統生成問題的長度比NMT模型生成的更短，RB系統生成的問題的最大公共子序列與其上下文序列的分佈很近似，這表明RB系統可能是直接從其輸入拷貝了大部分數據。

3.3 錯誤分析

實驗中發現QA模型雖然使用的訓練集中只有NE類型的答案，但是預測答案時並不總是選用命名實體作爲答案。將SQuAD數據集按照答案是否NE類型劃分問題後，對於答案類型爲NE類型的數據集，模型的性能提升爲 64.5 F1，對於答案類型不是NE類型的數據集，模型的性能仍然有47.9 F1。這是由於預訓練的BERT已經捕獲一定的語言學特徵，所以能夠歸納出NEs在句子中所起的語義作用，而不是簡單地模仿NER系統。對於BiDAF+SA模型當答案類型是NE，則F1爲 58.9，當答案類型是非NE，則F1 驟降到23.0。

Figure 3 展示了本文系統對不同類型問題和答案類型的性能結果。本文系統對於"when"問題處理得最好，這類問題的答案空間更小。但是對於"what"問題由於答案類型更廣泛而處於掙扎邊緣，因此每次給出的答案由於置信不足而總是以多湊數。在答案類型這個維度可以看出，"“TEMPORAL"類型的答案表現最好，這與"when"問題是一致的。

3.4 UNMT-生成問題分析

需要銘記的是，本文的方案是致力於提升下游QA模型的性能！因此，對無監督NMT完形填空轉換系統的輸出結果進行檢驗也有一定的指導意義。無監督NMT此前在單語種設置用到(Subramanian et al.,2018)，但是cloze-to-question生成更具挑戰，一方面由於完形填空問題和自然問句單詞長度是非對稱的，另一方面在轉換時需要保留答案，而不僅僅是淺層的轉換風格。Figure 4展示了不使用wh*啓發式規則時，模型能夠學習到廣泛地爲答案類型生成適配wh*單詞的問題。但是對於Person/Org/Norp 和數值類型答案，仍有較大提升。
Table 4展示了對於無監督模型，NE類型答案的一些典型樣本。

3.5 少樣本問答

本文方案在處理少樣本時候的表現如下Figure 5所示。

可以看出，在少樣本時，本文的方案秀得一塌糊塗。

4. 相關工作

無監督領域：
最相關的工作是無監督NMT中的成果，具體參考Conneau et al., 2017; Lample et al., 2017, 2018;Artetxe et al., 2018的論文。另一個較爲相關的成果是(Subramanian et al., 2018)的風格遷移論文。

半監督QA：
Yang et al. (2017) 訓練的QA模型也能夠生成新的問題，但是需要標註數據。Dhingra et al. (2018)對其方法進行簡化，在問題生成中雖然是無監督的，但是並不針對非監督的QA也無法生成自然的問題。此外，該方法一方面對用於問題生成的文本要較強的要求和限制，另一方面還需要Wikipedia的摘要段落。Chen et al. (2018)在WebQuestions上採用半監督方法提升了語義分析性能。Lei et al. (2016)採用半監督方法進行問題相似性的建模。Golub et al. (2017)提出一種可以生成特地領域QA訓練樣本的方法，以實現SQuAD和NewsQA之間的遷移學習。另一種半監督的方式是將外部知識引入到QA系統，Weissenborn et al. (2017) andMihaylov and Frank(2018)在QA任務中引入了Conceptnet(Speer et al., 2016)。

問題生成：
早期是基於模板和語法規則，再往後就是在模型上加入問題生成的排序功能和從符號角度進行研究。近期則發展爲採用監督式的神經網絡方法，(Du et al., 2017; Yuan et al., 2017; Zhao et al., 2018; Du and Cardie, 2018; Hosking and Riedel, 2019)嘗試基於SQuAD數據集中的 $c,a$ 對生成問題。

5. 討論

值得注意的是，本文方案中的最優結果是需要藉助NER系統(直接採用OntoNotes 5的標註數據)和用於提取子句的解析器(基於Penn Treebank訓練而得)。此外，還用到特定語言(本文指英語語種)的wh*啓發式規則以訓練最優的NMT模型。以上這些限制了本文方案的適用性和靈活性，只能侷限於某些有豐富語料資源(NER和treebank datasets)的特定領域和特定語種。此外，本文的方案還需要一些額外的人工特徵工程，比如定義新的啓發式規則。

儘管本文的方案存在上述不足，但是本文的方案從無需 $(question，answer)$ 、 $(question，context)$ 對這個角度看確實是無監督的。而 $(question，answer)$ 、 $(question，context)$ 數據對在標註大規模QA訓練數據集時是最艱難的。

本文中使用到的"noisy cloze"系統由簡單的規則和噪聲組成，但是其性能近乎可以與複雜的最優系統媲美(可回查Table 2)。儘管這種簡單的方法缺乏與問題相關的語法和句法。採用"noisy cloze"系統生成的問題在接受問句評估的"well-formed"中自然也顯得很拙劣，只有2.7%是"well-formed"。這些結果表明對於SQuAD而言，問題是否自然語言形式顯得沒那麼重要，即使是使用強question-context的詞匹配方式也能夠取得足夠好的性能。這部分工作可以參考Jia and Liang (2017)，該文作者證明了即使是有監督的模型也依賴於單詞匹配。

需要補充說明的是，本文提出的問題生成方案無需多跳或者多句子的聯合推理，但仍然能夠在SQuAD上取得不俗的成績。事實上，Min et al. (2018)指出SQuAD中90%的問題只需要原文中的一個句子即可應對，Sugawara et al. (2018)則發現SQuAD中76%的問題和答案存在高度的token重疊。

6. 總結

本文探索抽取式QA的無監督解決方案。最終發現，本文所提出的無監督方案確實可行，且超越簡單的監督系統，並遠遠優於其他不使用標註數據集的無監督方法。本文的無監督方案在SQuAD上取得 56.4 F1，進步一步在答案類型是命名實體的子數據集上取得64.5 F1。與此同時，需要注意的是雖然在這個相對簡單的QA任務結果令人鼓舞，但是未來工作需要處理更多具有挑戰QA問題，減少我們對語言資源和啓發式的依賴。

文獻閱讀筆記：Unsupervised Question Answering by Cloze Translation