本文是發表在 ACL2017 上的一篇論文,
(1)Document Retriever:基於二元語法哈希(bigram hashing)和TF-IDF匹配的搜索組件對於給出的問題,有效地返回相關的文檔
(2)Document Reader:多層RNN機器閱讀理解模型,在(1)所返回的文檔中查找問題答案的所在。
(3)Document Retriever
結合 TF-IDF 加權的詞袋向量和 Bigram 去表示每一個問題(Question),然後用這個表示(representation)去召回最相關的五篇文章。採用有效的(非機器學習式的)文檔檢索系統,初步縮減查找範圍並只讀取那些可能的相關文章。一個簡單的倒排索引再加上檢索詞向量模型打分就能在此類問題上表現良好。文章和問題被表示爲帶着TFIDF權重的詞袋向量,實驗表明,又使用考慮了局部詞序的2元特徵對系統進行了改進。此部分返回五篇與問題最相關的五篇文章。這些文章將會在下一個document reader的部分中被處理。
(4)Document Reader
給定一個問題q,由l個tokens組成 { }。有n個段落的文檔或文檔集,每個段落p由m個tokens組成{ },使用RNN模型將依次對每一個段落進行處理,最後綜合預測答案 。模型是這樣工作的:
a.段落編碼:
首先將段落p當中的所有tokens 表示爲特徵向量的序列 ,將它們作爲輸入傳入RNN網絡中
(1).word embeddings:
使用300維的Glove詞向量。保留大部分預訓練詞向量固定,只微調的1000個最常見的問題詞,因爲一些關鍵字,比如what,how,which等等可能是QA系統的關鍵。
(2)Exact match:
使用三個簡單的二元特徵來表示 是否精確匹配q中的疑問詞,無論是原字母、大小寫字母還是引理形式。這個簡單的特徵將在之後的試驗中證明非常有用。
(3)Token features:
加入一些人工特徵反映token 在上下文中的特性。包括詞性,命名實體識別,和TF。
最後一部分是對齊問題嵌入。Attention的權重 捕捉到了 與每一個疑問詞 之間的相似性。具體說來,權重是由詞向量的非線性映射點乘得來。
b.問題編碼:
問題編碼簡單一些,在問題詞的詞向量上採用另一個RNN,並將隱藏單元的輸
c.預測:
在段落層級上,我們的目標是預測正確答案所在的span(跨度)。
出組合成一個向量