(含源碼)「自然語言處理(NLP)」Question Answering(QA)論文整理(三)

來源: AINLPer 微信公衆號（每日更新…）
編輯: ShuYini
校稿: ShuYini
時間: 2020-03-19

引言： 本次整理的論文同樣主要偏向於Open-Domain QA，其中主要涉及到阿拉伯語的問答（這個可以嘗試轉變成中文的，因爲這個是有源碼的）、開放問答系統搭建、開放問答效率提升、基於web表的開放問答方法、開放問答模型泛化能力研究等。

本次論文獲取方式：
1、百度雲鏈接，提取碼: 5mw5
2、關注AINLPer 微信公衆號（每日更新…）回覆：QA003
3、知乎主頁–ShuYini

1、TILE: Neural Arabic Question Answering
Author: Hussein Mozannar , Karl El Hajal , Elie Maamary , Hazem Hajj
Paper: https://arxiv.org/pdf/1906.05394v1.pdf
Code: https://github.com/husseinmozannar/SOQAL
論文簡述： 爲了解決缺乏阿拉伯語問答數據集的問題，提出了阿拉伯語閱讀理解數據集（ARCD），該數據集由維基百科文章中的1395個問題組成，以及斯坦福問答數據集（Arabic SQuAD）的機器翻譯。阿拉伯語開放域問答系統（SOQAL）由兩部分組成：（1）使用分層TF-IDF方法的文檔檢索器；（2）使用預先訓練的雙向變換器BERT的神經閱讀理解模型。

2、TILE: Multi-step Retriever-Reader Interaction for Scalable Open-domain Question Answering
Author: Rajarshi Das , Shehzaad Dhuliawala , Manzil Zaheer , Andrew McCallum
Paper: https://arxiv.org/pdf/1905.05733v1.pdf
Code: https://github.com/rajarshd/Multi-Step-Reasoning
論文簡述： 本文提出了一種開放域問答的新框架，實現了檢索者和閱讀者之間的迭代交互。該框架只要求訪問閱讀器的Token級隱藏表示。檢索器使用快速近鄰搜索來擴展到包含數百萬段落的語料庫。門控循環單元根據閱讀器的狀態在每一步更新查詢，重新構造的查詢用於檢索器對段落重新排序。最後，展示了本文多步推理框架在各種大型開放域數據集(triviaq -unfiltered、QuasarT、SearchQA和SQuAD-Open)上應用於兩種廣泛使用的閱讀器體系結構(DrQA和BiDAF)時，帶來了較好得結果。

3、TILE: Densely Connected Attention Propagation for Reading Comprehension
Author: Yi Tay ， Luu Anh Tuan ， Siu Cheung Hui ， Jian Su
Paper: https://arxiv.org/pdf/1811.04210v2.pdf
Code: https://github.com/vanzytay/NIPS2018_DECAPROP
論文簡述： 本文提出了一種新的緊密連接的閱讀理解神經結構DecaProp (Connected Attention Propagation)。該模型有兩個明顯的特點。首先，本模型密集地連接了網絡的所有成對層，在所有層次上建立了通道和查詢之間的關係。然後，該網絡中的密集連接器是通過注意力來學習的，提出了一種新型的雙向注意連接器(BAC)，用於在整個網絡中有效地建立連接。

4、TILE: Ranking Paragraphs for Improving Answer Recall in Open-Domain Question Answering
Author: Jinhyuk Lee , Seongjun Yun , Hyunjae Kim , Miyoung Ko , Jaewoo Kang
Paper: https://arxiv.org/pdf/1810.00494v1.pdf
Code: https://github.com/yongqyu/ranking_paragraphs_pytorch
論文簡述： 由於開放域QA需要從文本語料庫中檢索相關文檔來回答問題，其性能在很大程度上取決於文檔檢索器的性能。然而，由於傳統的信息檢索系統不能有效地獲取包含答案的高概率文檔，從而降低了QA系統的性能。爲此本文引入段落Ranker，它對檢索到的文檔段落進行排序，以獲得較高的答案召回率和較少的噪聲。實驗發現使用段落Ranker對段落進行排序並聚合答案，在四個開放域QA數據集上的得到了比較好的結果。

5、TILE: Break It Down: A Question Understanding Benchmark
Author: Tomer Wolfson , Mor Geva , Ankit Gupta , Matt Gardner , Yoav Goldberg , Daniel Deutch , Jonathan Berant
Paper: https://arxiv.org/pdf/2001.11770v1.pdf
Code: None
論文簡述： 理解自然語言問題需要將問題分解爲計算答案所需的步驟。在本文中，本文介紹了一個問題分解意義表示(QDMR)。QDMR由一系列步驟組成，這些步驟通過自然語言表達，是回答問題所必需的。我們開發了一個衆包管道，表明QDMR可以大規模註釋，併發布了Break數據集，該數據集包含超過83K對問題。

6、TILE: Open Domain Question Answering Using Web Tables
Author: Kaushik Chakrabarti , Zhimin Chen , Siamak Shakeri , Guihong Cao
Paper: https://arxiv.org/pdf/2001.03272v1.pdf
Code: None
論文簡述： 在本文中，使用web表開發了一種開放域QA方法，這種方法既適用於factoid查詢，也適用於非factoid查詢。本文主要思想是將基於深度神經網絡的查詢和表之間的語義相似性與量化文檔中表的優勢以及表中信息質量特性結合起來。

7、TILE: Contextualized Sparse Representation with Rectified N-Gram Attention for Open-Domain Question Answering
Author: Anonymous
Paper: https://openreview.net/pdf?id=ryxgegBKwr
Code: None
論文簡述： 本文提出了一種有效的方法來學習一個高度上下文化的單詞級的稀疏表示，利用校正的自我注意力加權鄰近的n-gram。爲了提高記憶效率，本文在訓練過程中對內積空間進行核化，而不需要顯式地映射大型稀疏向量。通過在SQuADopen和CuratedTrec中以高達97倍的速度進行推理，不僅顯著提高了短語檢索的準確性（超過4%），而且優於所有其他（基於流水線的）開放域QA方法，從而證明了所學習稀疏表示的有效性。

8、TILE: What Does My QA Model Know? Devising Controlled Probes using Expert Knowledge
Author: Kyle Richardson , Ashish Sabharwal
Paper: https://arxiv.org/pdf/1912.13337v1.pdf
Code: None
論文簡述： 開放域問答（QA）涉及到一些潛在的知識和推理挑戰，但模型在接受基準任務培訓時是否真正學習了這些知識？爲了研究這一點，本文引入了幾個新的挑戰任務，來探索最新的QA模型是否具有關於單詞定義和一般分類推理的繁泛化知識，這兩個方面對於更復雜的推理形式來說都是基本的，並且在基準數據集中很普遍。

Attention

更多自然語言處理相關知識，還請關注 AINLPer公衆號，極品乾貨即刻送達。

(含源碼)「自然語言處理(NLP)」Question Answering(QA)論文整理(三)

Attention

《Python進階》學習筆記

Leetcode 3161. 物塊放置查詢

leetcode 60 排列序列

一個docker容器暴露多個端口

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

Attention的可解釋性及其在網絡結構中的應用

ICML2020全部接受論文列表

（含源碼）問答對生成（QAG）| 你竟還在手工梳理問答對！？

這是一篇關於Attention的綜述

Pytorch常用的交叉熵損失函數CrossEntropyLoss()詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結