Reading Wikipedia to Answer Open-Domain Questions

本文是發表在 ACL2017 上的一篇論文，

（1）Document Retriever：基於二元語法哈希（bigram hashing）和TF-IDF匹配的搜索組件對於給出的問題，有效地返回相關的文檔

（2）Document Reader：多層RNN機器閱讀理解模型，在（1）所返回的文檔中查找問題答案的所在。

（3）Document Retriever

結合 TF-IDF 加權的詞袋向量和 Bigram 去表示每一個問題（Question），然後用這個表示（representation）去召回最相關的五篇文章。採用有效的（非機器學習式的）文檔檢索系統，初步縮減查找範圍並只讀取那些可能的相關文章。一個簡單的倒排索引再加上檢索詞向量模型打分就能在此類問題上表現良好。文章和問題被表示爲帶着TFIDF權重的詞袋向量，實驗表明，又使用考慮了局部詞序的2元特徵對系統進行了改進。此部分返回五篇與問題最相關的五篇文章。這些文章將會在下一個document reader的部分中被處理。

（4）Document Reader

給定一個問題q，由l個tokens組成 { }。有n個段落的文檔或文檔集，每個段落p由m個tokens組成{ }，使用RNN模型將依次對每一個段落進行處理，最後綜合預測答案。模型是這樣工作的：