開放域QA
從大規模無監督文本中(千萬級以上)通過檢索+機器閱讀理解的方法已經成爲當前學術界和工業界研究的熱點。一方面存在很多挑戰,另一方面對於實際開放域問答有着非常重要的現實意義。目前主流檢索平臺(百度,谷歌,bing)已經實現和應用相關技術在線上的產品中。
從陳丹琦DrQA開始,越來越多頂會相關論文和工作發佈。比較權威的數據庫QAngaroo (Welblet al., 2018) and HOTPOTQA (Yang et al., 2018)
存在的挑戰
1.一次檢索,並不能檢索出問題的所用支撐事實。提高第一次檢索的準確率和產生多次相關檢索成爲該問題的研究重點。
2. 如何中到的文檔中找到問題的答案成爲第二個研究的重點。目前比較有效的方法是預訓練語言模型。例如BERT、ALBERT、RoBERTa等。
本文介紹EMNLP2019 兩篇關於開放域QA 的相關論文,論文創新點十足,同時也開源了相關代碼。具有比較強的可讀性和復現性。
GoldEn Retriever
Answering Complex Open-domain Questions Through Iterative Query Generation
摘要(原文)
當前的一步檢索-閱讀問答(QA)系統面臨着很大的挑戰,回答諸如“史蒂芬·斯皮爾伯格要把《無敵艦隊》的作者將把哪部小說改編成電影”之類的問題。因爲這個問題很少包含可檢索的線索缺失的實體(這裏是作者)。回答這樣一個問題需要多跳推理,其中一個必須收集缺少的實體(或事實)進一步的推理。我們提出了GoldEn Retriever,它在讀取上下文和檢索更多支持之間迭代回答開放域多跳的文檔的問題。而不是使用不透明且計算昂貴的神經檢索模型。GoldEn Retriever能產生自然語言搜索問題和可用的查詢
上下文,並利用現有的信息檢索系統來查詢缺少的實體。這使得GoldEn Retriever可以伸縮.在保持可解釋性的同時,高效地進行開放域多跳推理。我們評價GoldEn Retriever最近的表現提出的開放域多跳QA數據集,,並證明它比之前發佈的最好的模型表現得更好,儘管沒有使用預先訓練好的語言模型如伯特。該文主要迭代生產查詢的方式去尋找問題的支持依據,比傳統一次檢索能夠回答更復雜的問題。
該文突出貢獻點
- 該模型的核心創新之處在於,它在每一步都使用先前的IR結果來生成新的自然語言查詢,並檢索新的證據來回答原始問題,而不是單純依靠原始問題來檢索文章段落。從而實現多跳推理。
多跳檢索的實現
去訓練一個query生成模型代價十分大的,一方面目前有效的數據集不多,另一方面潛在的檢索量十分大。
qk = Gk(q; Ck);
Ck+1 = Ck .+ IRn(qk)
IRn(qk) 是通過 qk檢索到的前N篇文檔
傳統的訓練過程是通過強化學習的方法去完成,強化學習本身具有計算複雜度高,方差高的特點。通常非常依賴前一步選擇的query和IR 結果。
該文通過弱監督的數據去訓練模型,在多跳檢索模型中,當前檢索內容,和下一步要檢索的內容具有很強的語義相關性。
通過啓發式的方法來生成新的查詢。計算當前文檔和候選文檔最長公共子序列
SemanticRetrievalMR
Multi-passage BERT: A Globally Normalized BERT Model for Open-domain Question Answering
摘要(原文)
BERT模型已成功地應用於open-domain QA任務。但是,先前的工作通過將同一問題對應的段落作爲獨立的訓練實例來訓練BERT,這可能會導致不同答案的分數無法比較段落。爲了解決這個問題,我們建議多篇BERT模型對同一個問題在所有文章的回答分數進行全局標準化。我們的QA模型通過使用更多的段落來找到更好的答案。另外,我們發現用把文章分成幾段,通過滑動窗口輸入100個單詞可以提高4%的性能。爲了選擇高質量的段落,多段RoBERTa能夠提升的2%。在四個標準基準上的實驗表明,多段RoBERTa取得了SOTA。特別是在OpenSQuAD的數據集上,我們的模型對比非BERT,EM提升21.4%,F1提升21.5%,對比BERT-based模型5.8% EM和6.5% F1。
參考
GoldEn Retriever: Answering Complex Open-domain Questions Through Iterative Query Generation
Multi-passage BERT: A Globally Normalized BERT Model for
Open-domain Question Answering