[論文解讀]A Deep Relevance Matching Model for Ad-hoc Retrieval

A Deep Relevance Matching Model for Ad-hoc Retrieval

DRMM by Jiafeng Guo, Yixing Fan, Qingyao Ai and W.Bruce Croft for CIKM2016

摘要(Abstract)

  • 關鍵詞:相關性匹配,語義匹配,神經模型,Ad-hoc檢索,排序模型

  • 背景:DNN在語音識別、計算機視覺和NLP任務中取得了極大的突破,但是在ad-hoc檢索任務並沒有取得多少積極的結果。

  • 關鍵:在ad-hoc檢索任務和NLP匹配任務中有根本上的不同,在於ad-hoc檢索任務主要是關於相關性匹配(relevance matching),而NLP匹配任務更多地是考慮語義匹配(semantic matching)

    一個好的相關性匹配需要正確處理精確匹配信號,查詢項重要性和多種多樣的匹配需求。

  • 本文研究工作:

    • 提出深度相關匹配模型(Deep Relevance Matching Model, DRMM)
    • 主要組成部分:匹配直方圖映射(matching histogram mapping), 前饋匹配網絡(feed forward matching network)以及詞項門控網絡( term gating network),以解決以上上個問題。
  • 數據集及表現:

    TREC——Robust04ClueWeb-09-Cat-B,與傳統的檢索模型和state-of-the-art深度匹配模型相比,很有競爭力。

1.概述(Introduction)

應用於信息檢索的方法:Machine learning methods -> Deep learning models

Machine learning for IR

近年來,機器學習方法已成功應用於信息檢索(IR)。通常排序函數(ranking function)可以基於一系列人爲定義的特徵,對於一個給定的查詢和文檔對給出相關性分數。然而手工設置的特徵存在有以下幾個缺點

  • 耗時(time-consuming)
  • 不完整(incomplete)
  • 過於精確(over-specified)

Deep learning for IR

而另一方面,深度神經網絡,作爲一個表示學習(representation learning)工具,有能力從訓練數據的隱藏結構和抽象的不同層級的特徵中發現對任務有用的特徵。深度學習目前已經被成功應用於語音設別(speech recognition,2011),計算機視覺(computer vision,2013)以及自然語言處理(Natural Language Processing,NLP,2015),並且已經產生了顯着的性能改進。鑑於這些領域深度學習的成功,深度學習似乎應該對IR產生重大影響。然而,到目前爲止,關於IR任務的深度模型,特別是ad-hoc 檢索任務的積極結果很少。

deep models for ad-hoc retrieval

當將深度模型應用於ad-hoc檢索時,檢索任務一般會被形式化爲兩段文本(也就是查詢query和文檔document)的匹配問題。這種匹配問題通常被認爲是通用的,因爲它既可以涵蓋ad-hoc檢索任務,也可以涵蓋許多NLP任務,如釋義識別(paraphrase identification),問答(question answering,QA)和自動對話(automatic conversation)。

2.Ad-hoc檢索作爲一個匹配問題

Ad-hoc retrieval ——(formalize)—— > text matching problem

Ad-hoc檢索的核心問題是對於一個給定的查詢,計算文檔的相關性,因此可以被形式化爲一個文本匹配問題如下。給定兩個文本T1T_{1}T2T_{2} ,衡量它們的相似度得分可以由一個打評分函數(scoring function)基於每個文本的表示計算得分:

match(T1,T2)=F(ϕ(T1,ϕ(T2)))match(T_{1},T_{2})=F(\phi(T_{1},\phi(T_{2})))

其中,ϕ\phi是一個函數,用於將每一個文本映射至一個表示向量;

FF是一個評分函數,基於兩個文本之間的交互

這樣一個文本匹配問題通常會被當作NLP任務的描述來考慮,大量深度匹配模型的提出要麼是針對具體的ad-hoc檢索任務或者是爲了通用匹配問題。

兩類深度匹配模型

已經有多種多樣的深度匹配模型被提出,用於解決這個匹配問題,根據它們的模型結構(也就是對以上兩種函數的選擇),現由的深度匹配模型可以分爲以下兩類:

Alt

以表示爲中心的模型(representation-focused model)

用深度神經網絡爲單個文本建立一個好的表示,然後在文本的組合和抽象文本表示之間進行匹配。如:DSSM, C-DSSM 和 ARC-I。

  • 兩種函數的選擇

    在該方法中,ϕ\phi是一個複雜表示的映射函數,而FF是一個相對簡單的匹配函數。

  • 具體模型案例

    model ϕ\phi FF
    DSSM 前饋神經網絡 餘弦相似度函數
    C-DSSM 卷積神經網絡(CNN) 餘弦相似度函數
    ARC-I 卷積神經網絡(CNN) 多層感知機(MLP)

以交互爲中心的模型(representation-focused model)

首先在兩段文本之間建立本地交互(local interactions),也就是本地匹配信號(local matching signals)。然後用深度神經網絡去學習匹配的分層交互模式(hierarchical interaction patterns) .如DeepMatch, ARC-II 和 MatchPyramid。

  • 兩種函數的選擇

    在該方法中,ϕ\phi是一個簡單的映射函數,而FF是一個複雜的深度模型。

  • 具體模型案例

    model ϕ\phi FF
    DeepMatch 將文本映射爲詞序列的簡單映射函數 前饋神經網絡
    ARC-II 簡單映射函數 卷積神經網絡(CNN)
    MatchPyramid 簡單映射函數 卷積神經網絡(CNN)

存在的問題

儘管在這樣的一般匹配問題形式化下已經提出了各種深度匹配模型,但是大多數模型僅被證明對一系列NLP任務有效,在ad-hoc檢索方面有積極作用的很少。甚至是專門爲Web搜索設計的深度模型(如DSSM和C-DSSM),也僅僅能夠在<查詢,文檔標題>對上進行評估,這些不是典型的ad-hoc檢索設置。如果我們直接將這些深度匹配模型應用於某些基準檢索集合,如TREC語料庫集合中,我們會發現性能不如傳統的排序模型如語言模型和BM25。

提出的問題

基於以上觀察,我們可以提出一些問題如下:

  • 在ad-hoc中的匹配事都真的和NLP任務中的匹配完全一樣?
  • 現存的深度匹配模型是否適合於ad-hoc檢索任務?

3.語義匹配 VS. 相關性匹配

很多NLP任務和ad-hoc檢索任務的匹配問題從根本上是不同的!

  • Matching in NLP tasks

大多數NLP任務關注於語義匹配,即識別語義和推斷兩段文本之間的語義關係

  • Matching in ad-hoc retrieval tasks

而ad-hoc檢索任務主要是關於相關性匹配,即識別文檔是否與給定查詢相關。

  • 語義匹配(Semantic Matching)

    在這些語義匹配任務中,兩個文本通常是同質的並且有很少的自然語言句子組成,如問答句子或對話。爲了推斷自然語言句子之間的語義關係,語義匹配強調以下3個因素:

    • Similarity matching signals:不同的項表達着相似的意思或者具有推斷關係等相關的意思。
    • Compositional meanings:更關注語法結構而非詞的集合/詞的序列,同時明確的語法結構對該NLP任務至關重要。
    • Global matching requirement:考慮文本的整體信息。
  • 相關性匹配(Relevance Matching)

    在相關性匹配任務中,查詢文本通常很短並且基於關鍵詞,而文檔的長度是變化的,從幾十個詞到上千上萬個詞。爲了檢驗查詢和文檔之間的相關性,相關性匹配主要關注於以下三個:

    • Exact matching sigals:儘管詞項的錯誤匹配在ad-hoc檢索中是一個重要問題,並且已經用不同的語義相似度信號來處理。但由於現代搜索引擎中的索引和搜索範例,文檔和查詢中的精確匹配項仍然是最重要的信號。先前的研究表明原始查詢項匹配的相關性得分總是不低於多次對語義相關的項進行匹配。這也解釋了爲什麼一些傳統的檢索模型,例如BM25,可以完全基於精確匹配信號很好地工作。
    • Query term importance:在Ad-hoc檢索中,通常比較短的query沒有複雜的語法結構,主要包括一些關鍵詞。所以query的term的重要性值得考慮。
    • Diverse matching requirement:Verbosity Hypothesis認爲長文檔和短文檔類似,也包括一個相似的範圍;Scope Hypothesis認爲長文檔是不相關的短文檔的集合,所以文章不一定要整個與query相關。

4.本文的模型架構DRMM

模型架構

本文提出一種深度相關匹配模型(deep relevance matching model,DRMM),它是一個以交互爲中心的模型,爲了實現相關性匹配在查詢項級別部署了一個聯結深度架構(joint deep architecture)。

具體來說,我們首先在查詢和基於詞項嵌入的文檔中的每一對詞項之間構建本地交互。對於每一個查詢項,我們將可變長度的本地交互(variable-length local interactions)映射至固定長度的匹配直方圖(fixed-length matching histogram)。基於這個固定長度的匹配直方圖,我們部署一個前饋匹配網絡來學習分層匹配模式併產生一個匹配分數。最後,整體匹配分數由每一個查詢項和詞項門控網絡計算得到總權重進行聚合得到。模型架構如下圖所示:

Alt

形式化描述

假設查詢和文檔都被表示成一系列詞項向量的集合,標註如下:

查詢項向量的集合 q={w1(q),,wM(q)}q=\{w_{1}^{(q)},…,w_{M}^{(q)}\} ,每一個查詢項向量 wi(q),i=1,,Mw_{i}^{(q)},i=1,…,M

文檔項向量的集合 d={w1(d),,wN(d)}d=\{w_{1}^{(d)},…,w_{N}^{(d)}\} ,每一個文檔項向量 wj(d),j=1,,Nw_{j}^{(d)},j=1,…,N

我們用ss表示最終的相關性得分,有:

其中,\bigotimes表示一個查詢項和文檔項之間的交互操作

hh表示從本地交互到匹配直方圖的映射函數

zi(l),l=0,,Lz_{i}^{(l)},l=0,…,L 表示對於第ii個查詢項中間的隱藏層

gi,i=1,,Mg_{i},i=1,…,M 表示由詞項門控網絡產生的聚合權重

W(l)W^{(l)}表示第ll個權重矩陣,而b(l)b^{(l)}表示第ll個偏置項

它們在不同的額查詢項之間交叉共享。注意,我們採用餘弦相似度作爲查詢和文檔中每對術語向量之間的交互操作符。

本文采用的詞嵌入

本文假設術語向量是使用現有的神經嵌入模型(如Word2Vec)先驗學習的。本文在深度相關性匹配模型中沒有學習詞向量,原因如下:1)可以從大規模的未標記文本集合中獲取可靠的詞項表示,而不是從有限的真實數據中進行ad-hoc檢索; 2)通過使用先驗學習的詞項向量,我們可以將模型的學習集中在相關性匹配模式上,並且可以大大降低模型的複雜性。

三個組成部分

  • 本文的主要模型設計包括:

    • 匹配直方圖映射(matching histogram mapping)
    • 一個前饋匹配網絡(a feed forward matching network)
    • 一個詞項門控網絡(a term gating network)

    解決了ad-hoc檢索中相關性匹配的三個關鍵問題。

實驗效果

我們基於兩個代表性的ad-hoc檢索基準集合(benchmark collections)來評估所提出的DRMM的有效性。爲了進行比較,我們考慮了一些衆所周知的傳統檢索模型,以及幾種最先進的深度匹配模型,這些模型是爲一般匹配問題而設計的,或者是專門爲特殊檢索任務而提出的。實證結果表明,現有的深度匹配模型無法與這些基準集合中的傳統檢索模型競爭,而我們的模型在所有評估指標方面可以顯着優於所有基線模型。

主要貢獻

  • 指出了語義匹配和相關性匹配之間的三個主要不同,導致了深度匹配模型的架構設計顯著不同。

  • 本文通過明確解決相關性匹配的三個關鍵因素,提出了一種用於臨ad-hoc檢索的新的深度相關匹配模型。

  • 本文對基準集合中最先進的檢索模型進行了嚴格的比較,並分析了現有深度匹配模型的缺陷和DRMM的優勢。

5.總結

該論文是在Interaction-focused模型基礎之上進行修改,得到一個新的網絡模型DRMM。之前基於Interaction-focused的模型保留了位置信息,比如ARC-II中生成的交互矩陣,然後在此之上構建前向網絡。但是在實際情況中,query中的詞和文檔中的詞不具有位置上的對應關係。基於此,該文提出的DRMM是基於值的大小對matrix中的單元重新分類(即該文中所提到的直方圖)。
該文首先用query中的每個單詞和文檔的每個單詞構建成爲一個詞對(word pair),再基於詞向量,將一個詞對映射到一個局部交互空間(local interactions,該文用了餘弦相似度)。然後將每一個局部交互空間映射到長度固定的匹配直方圖中。引用文中的例子,將相似度[-1, 1]分爲五個區間{[-1,-0.5), [-0.5,-0), [0,0.5), [0.5,1), [1,1]} 。給定query中的一個詞“car”以及一篇文檔(car, rent, truck, bump, injunction, runway), 得到對應的局部交互空間爲(1, 0.2, 0.7, 0.3, -0.1, 0.1),最後我們用基於計數的直方圖方法得到的直方圖爲[0,1, 3, 1, 1]。對於每一個query的詞得到一個直方圖分佈後,在此之上構建一個前向匹配網絡並且產生query和文檔的匹配分值,最後在將query中所有詞合併的時候加入gating參數(比較類似於attention機制)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章