陳丹琦博士論文閱讀筆記第二部分

第五章：開放域問答

在第一部分，主要是介紹了閱讀理解的任務：從形式到近年來的發展，以及閱讀理解系統的關鍵組成部分和未來的研究方向。但是，依舊不清晰的是閱讀理解是否只是一種用來衡量對語言理解能力的任務。在第二部分，將回答這個問題，並且介紹一些應用工作以及在這些工作中神經閱讀理解如何起到核心作用。
在本章，我們將開放域問答作爲閱讀理解的一種應用。開放域問答的目標是建立一個自動計算系統，該系統是基於龐大的非結構化自然語言文本集，結構化的數據（知識基），半結構化數據（表）甚至其他形式如圖像和音頻來回答人們提出的任何問題。
5.1回顧開放域問答系統；5.2介紹用於英語維基百科的DRQA開放域問答系統，該系統結合了信息檢索模塊和閱讀理解模塊。並且討論瞭如何採用遠程監督技術來提高系統性能；在5.3提出在多個測試集上綜合評估；最終在5.4討論當前的限制以及隨後的工作和未來的規劃。

5.1 開放域問答的回顧

從1999年，對於QA的研究在TREC比賽中首次加入，從文本中找出包含開放問題的答案的一些小段落。該系統以及隨後的一些研究都是包含兩個部分：首先從問題出發檢索到與之相關的top n個段落；然後用基於窗口的評分系統來精確定位到具體的答案。隨着 knowledge bases (KBs) 如 FREEBASE (Bollacker et al., 2008) 和DBPEDIA (Auer et al., 2007)發展，很多問答系統像BQUESTIONS (Berant et al., 2013) and SIMPLEQUESTIONS (Bordes et al., 2015) ，以及一些自動提取KBs的OpenIE triples and NELL (Fader et al., 2014)出現。這種KBs 的問答系統主要是基於語義分析或者信息提取技術 (Yao et al., 2014)，有很多固有的限制（數據不完全，模式固定），因此激勵研究者從原始文本源頭開始研究。
同樣的有很多其他的方法通過混合各種資源包括收集文本（Web pages, Wikipedia, newswire articles）和結構數據庫（FREEBASE, DBPEDIA etc.）。Microsoft’s ASKMSR (Brill et al., 2002), IBM’s DEEPQA (Ferrucci et al., 2010) 和
YODAQA (Baudisˇ, 2015) 。ASKMSR是搜索引擎，依靠大量的數據而非複雜語言分析來提供答案；DEEPQA最具代表性的現代問答系統，非結構信息和結構數據共同生成候選答案（圖示）；YODAQA開源系統，類似於DEEPQA，結合了網站，數據庫和維基百科。

5.2 DRQA

5.2.1 overview

作者提出的DRQA將Wikipedia作爲唯一的知識源,並且只考慮文本內容。旨在建立一個知識問答系統，對於提出的任何百科問題，都可以從wikipedia中給出答案。
選擇維基百科的原因是因爲它包含一個最新的，各種人們感興趣的內容；很多閱讀理解數據集也是來源於維基百科，便於對比；維基百科文本質量高。

系統包括兩部分內容：1. 內容檢索，找出相關的文章；2.閱讀理解模型，從單個或多個文本提取答案。雖然使用Wikipedia收集數據，但不依賴於其內部的圖結構。因此，這種方法可以適用與其他的文檔，書記或者日報等內容。

5.2.2 Document Retriever

參考傳統的QA系統，使用一種有效的（非機器學習）文檔檢索系統首先減少搜索空間將範圍限制在只閱讀相關文檔。與內置的基於ElasticSearch的Wikipedia Search API（Gormley和Tong，2015）相比，簡單的反向索引查找和檢索詞向量模型評分在許多問題類型的任務上表現得相當好。一些注意點：TF-IDF詞袋模型，採用n-gram特徵（兩元和一元），最後選取5篇相關文章進入第二步驟。

5.2.3 Document Reader

類似於跨度閱讀理解問題，從5篇文檔中提取出可能答案。將閱讀理解模型應用在5篇文章的每個段落中計算出跨度得分。爲了使一個或多個檢索到的文檔的段落之間的分數兼容，使用非標準化指數，並在所有考慮的段落跨度上使用argmax()作爲最終預測，當然這只是一種啓發式方法，在5.4中會討論未來的工作。

5.2.4 Distant Supervision

結合傳統的信息檢索和之前的神經閱讀理解內容之後，就只剩下訓練的問題了。但是SQUDA數據集存在有一定的缺陷：問題對的分佈是不一致的，問題是上下文相關的，數據集較小（80k訓練樣本）。爲了克服這些問題，需要採用一種方法增加訓練樣本。就是再次使用之前的信息檢索模塊：如果我們有一個問題對 $(q,a)$ ，檢索模塊幫助我們找到相關問題 $q$ 的段落與答案 $a$ 在段落中出現的部分，然後我們建立一個遠程監督訓練樣本如 $(p,q,a)$ 的形式訓練閱讀理解模型：

這種方法受 Distant Dupervision (Mintz et al., 2009）用於關係提取的啓發。儘管得到的樣本存在噪聲，但是這種方法對於SQUAD的擴充用於開放域問答是一種方便的方法，5.3討論有效性。

5.3 Evaluation

5.3.1 Question Answering Datasets

TREC:Baudis and ˇ Sediv ˇ y` (2015)
WebQuestions:Berant et al. (2013)
WikiMovies:Miller et al. (2016)

可能多個問題有多個答案

Implementation Details

5.3.2.1 Processing Wikipedia

只提取維基百科文本信息，時間戳2016-12-21，共包含5,075,182文章

5.3.2.2 Distantly-supervised data

第一步，信息檢索莫魯埃對問題檢索出對應的top5 文章，文章中與答案沒有精確匹配的段落刪除，段落小於25或長於1500的也濾除，段落中如果出現命名實體，移除其他不包含的段落；對於檢索餘下的段落，採用unigram 和 bigram對於檢索到的每個頁面中的每個剩餘段落，我們採用unigram和bigram在問題與20個詞窗口匹配答案，所有位置進行評分，保持重疊最多的前5個段落。如果有零匹配就刪除，然後添加DS訓練對。

5.3.2.3 Document Retriever Performance

5.3.4 Final Results

DRQA system：github

Future Work

Aggregating evidence from multiple paragraphs： DRQA採用的是argmax，這種方法簡單但不理想，主要是它不僅意味着每篇文章必須包含答案並且最終只輸出一個答案，而且並沒有保證不同文章之間的得分具有可比較性。Clark and Gardner (2018)提出多段訓練，標準化得分的方法。Wang et al. (2018a) 和 Wang et al. (2018b)提出將檢索文章顯示排序的方法：用強化學習對重排和答案提取聯合訓練，以及strength-based re-ranker和coverage-based re-ranker。
**Using more and better training data.**獲得更多，改進現有的數據集。 Lin et al. (2018)對遠程監督數據去噪。增加負樣本也會提高性能
Making the DOCUMENT RETRIEVER trainable：用機器學習的方法進行信息檢索， Clark and Gardner (2018)採用Bing web search。
**Better DOCUMENT READER module.**以及 More analysis is needed.，對現有系統深入研究並且與早期的TREC QA結果做對比找出需要改進的地方。建立一個端到端的問答系統是作者更感興趣的研究方向。

第六章：對話問答

針對對話系統中的問題進行研究。
6.1介紹最近相關工作；6.2介紹CoQA，其中數據集包含127k問題和答案，分別來源於8k文本對話和7個不同領域；6.3介紹模型；6.4介紹實驗結果。

6.1 Related Work

最常見的兩種對話系統：用於某種任務的對話系統和用於閒談交流的系統。對於任務型，往往是根據任務完成度或者是時間來衡量，而閒聊的往往是沒有特殊的目標。
綜述神經網絡方法對話系統(Gao et al., 2018)¹ 。我們的工作和(Das et al., 2017)²
(Saha et al., 2018)³ ,(Talmor and Berant,2018)³ 類似。但是我們的對話是基於文本和段落的。

6.2 CoQA：A Conversational QA Challenge

在這一小節主要介紹CoQA數據集。發展CoQA這個數據集主要有三個考慮的部分：第一，考慮人們對話時的提出問題的自然性；第二是保證在問答中答案的自然性（答案是自由形式，而答案的來源可以是基於跨度的）；第三，確保問答系統的魯棒性，可以適用於各種領域（文學，新聞，科技，自然等等）。

6.2.1 Task definition

$(Q_i,A_i,R_i),i=1...n,$ 分別對應question,answer,evidence. 問題 $Q_i$ 是根據之前的對話 $Q_1,A_1,...,Q_{i-1},A_{i-1}$ .

其中的命名實體是不斷改變的，如his，he等，要求我們能夠推導出多個句子之間的關係。

6.2.2 Dataset Collection

詳細的講述了數據收集過程。

所選文章來源於七個領域：children’s stories from MCTest (Richardson et al., 2013), literature from Project Gutenberg4, middle and high school English exams from RACE (Lai et al., 2017), news articles from CNN (Hermann et al., 2015), articles from Wikipedia, science articles from AI2 Science Questions (Welbl et al., 2017) and Reddit articles from the Writing Prompts dataset (Fan et al., 2018)

6.2.3 Dataset Analysis

Comparison with SQUAD 2.0.
首先與SQUAD2.0相比：SQUAD2.0中不存在共指關係（he,him,she,it,they)；SQUAD2.0幾乎一半都是what問題。還有如did,was,is does,and都是幾乎在SQUAD2.0中不存在的。而且問題的長度也有差別；並且AQUAD2.0中不存在無法回答的問題。並且CoQA又11.1%和8.7%的yes和no的問答。

另外說明了數據集問答中的一些語言現象：

30.5%的文圖是不依賴於上下文中的共指關係而可以直接回答，但是又49.7%的包含明確的共指關係（he,she,it），這些都涉及到命名實體或者一個事件。而剩下的19.8%雖然沒有明確指出共指關係但是也在隱含中指向事件或者實體。

Models

給定一段文本 $p$ ，對話歷史 ${q_1,a_1,...q_{i-1},a_{i-1}}$ 以及問題 $q_i$ ，任務是預測下一個答案 $a_i$ 。

6.3.1 Conversational Models

Sequence-to-sequence（seq2seq）models加上注意力機制生成答案。Pointer-Generator network（PGNet）

6.3.2 Reading Comprehension Models

主要是用 STANFORD ATTENTIVE READER來做跨度預測，具體細節是3.2.
然後是混合兩種模型。閱讀理解模型預測文本跨度閱讀，PGNet用來生成自由問答答案。

6.4 Experiments

Setup： GLOVE用於對話模型，FASTTEXT用於閱讀理解模型。對於SEQ2SEQ 和 PGNET，使用OPENNMT默認參數，2層LSTM，編碼解碼都是500隱含單元，SGD優化，學習率0.1，衰減率0.5，dropout0.3.對於閱讀理解模型，3層LSTMs，每層300隱藏單元，dropout0.4用於LSTM，詞嵌入的dropout0.5
Result：最好的混合結果是65.1（F1 score）相比人本身會的的88.8之間還有很大的進步空間

另外比較了細緻劃分問題和答案所屬類型下的模型結果：

6.4.3 Error Analysis

從圖6.6可以看到人在無法回答的問題上有更高的不一致性。有些時候，人們猜測一個答案甚至當它不存在文本中並且人對於抽象答案的回答更加廣泛，缺乏一致性。

對話歷史的重要性通過一個表格說明

Jianfeng Gao, Michel Galley, and Lihong Li. 2018. Neural approaches to conversationalAI. arXiv preprint arXiv:1809.08267 ↩︎
Abhishek Das, Satwik Kottur, Khushi Gupta, Avi Singh, Deshraj Yadav, Jose MF Moura,Devi Parikh, and Dhruv Batra. 2017. Visual dialog. In Conference on computer vision and pattern recognition (CVPR), pages 1080–1089 ↩︎
Amrita Saha, Vardaan Pahuja, Mitesh M. Khapra, Karthik Sankaranarayanan, and Sarath Chandar. 2018. Complex sequential question answering: Towards learning to converse over linked question answer pairs with a knowledge graph. In Conference on Artificial Intelligence (AAAI) ↩︎ ↩︎

總結陳丹琦博士論文（二）：NEURAL READING COMPREHENSION AND BEYOND