【論文翻譯】Deep Visual-Semantic Hashing for Cross-Modal Retrieval

Deep Visual-Semantic Hashing for Cross-Modal Retrieval
用於跨模態檢索的深度視覺語義哈希
 

摘要:

由於哈希算法具有較高的存儲和檢索效率,在大規模多媒體檢索中被廣泛應用於近似近鄰搜索。跨模態哈希能夠有效地檢索圖像以響應文本查詢,反之亦然,近年來受到越來越多的關注。現有的大多數跨模態哈希研究工作都沒有捕捉到圖像的空間依賴性和文本句子的時間動態,從而學習強大的特徵表示和跨模態嵌入,從而緩解了不同模式的異質性。摘要提出了一種新的深度視覺語義哈希(DVSH)模型,該模型在端到端深度學習體系結構中生成圖像和句子的緊湊哈希碼,捕捉視覺數據與自然語言之間的內在跨模態對應關係。DVSH是一種混合的深度架構,它構成了一個用於學習圖像和文本句子的聯合嵌入空間的可視化語義融合網絡,以及兩個用於學習哈希函數以生成緊湊二進制代碼的特定於模態的哈希網絡。我們的架構有效地統一了聯合多模態嵌入和交叉模態哈希,它是基於圖像上的卷積神經網絡、句子上的遞歸神經網絡和一個結構化的最大裕度目標的新組合,該目標將所有東西集成在一起,從而能夠學習保持相似性和高質量的哈希碼。大量的經驗證據表明,我們的DVSH方法在圖像-句子數據集的跨模態檢索實驗中,即標準的IAPR TC-12和大規模的Microsoft COCO中,得到了最先進的結果。
 

1.介紹

而海量、高維的多媒體大數據在搜索引擎和社交網絡中無處不在。近年來,跨媒體模式的近似近鄰搜索得到了越來越多的關注,它帶來了計算效率和搜索質量。由於來自不同模態的對應數據可能賦予語義相關性,因此支持跨模態檢索是非常必要的,即返回一個模態的相關結果以響應另一個模態的查詢,例如用文本查詢檢索圖像。哈希方法是一種跨模態檢索的優勢解決方案,它將高維數據壓縮爲具有相似二進制碼的緊湊二進制碼,用於相似的對象[36]。本文主要研究建立同構哈希碼的跨模態哈希,以實現高效的跨媒體檢索。由於不同的模態之間存在異質性[31,38],而且低水平特徵和高水平語義之間存在語義差異,因此有效的跨模態哈希仍然是一個挑戰。
許多跨模態哈希方法被提出來利用哈希函數學習過程中不同模式間的共享結構,壓縮同構漢明空間中的跨模態數據[4,22,44,45,33,37,41,27,43,39,25,29]。這些基於淺層架構的跨模態哈希方法不能有效地利用異構相關結構來橋接不同的模態。最近幾個多模態嵌入的深度模型[9,20,28,18,6,10,1]表明,深度學習能夠比淺層學習方法更有效地捕獲異構的跨模態關聯。雖然這些深度模型已經成功地應用於圖像字幕和檢索,但它們不能生成緊湊的哈希碼來實現高效的跨模態檢索。與此同時,最新的深度哈希方法[40,23,46,5]在許多數據集上產生了最先進的結果,但這些方法僅限於單模態檢索。

在這項工作中,我們力求在響應自然語句查詢時實現圖像的高效跨模態檢索,反之亦然,如圖1所示。這種新的哈希場景不同於以前使用無序關鍵字查詢的工作,它更適合於實際應用程序,因爲用戶通常更容易用自由風格的文本語句而不是幾個關鍵字來描述圖像。實現這一目標的主要挑戰在於設計一個模型,該模型足夠豐富,可以同時對圖像的內容及其在自然語言領域中的表示進行推理。此外,該模型應該能夠生成緊湊的哈希碼,捕捉圖像和句子的豐富特徵以及跨模態相關結構,以實現高效的跨模態檢索。據我們所知,這項工作是第一個端到端的跨模態學習方法,這使得針對句子查詢的圖像的有效的跨模式檢索成爲可能,反之亦然。

本文提出了一種新的深Visual-Semantic散列(DVSH)模型產生緊湊的哈希碼的圖片和句子在一個端到端的深度學習體系結構中,捕捉圖像的空間相關性和時間動態文本句子學習強大的特性表徵和跨通道嵌入減輕不同形式的異質性。DVSH是一種混合的深度架構,它構成了一個用於學習圖像和句子的聯合嵌入空間的視覺語義融合網絡,以及兩個用於學習哈希函數以生成緊湊二進制代碼的特定於模態的哈希網絡。體系結構有效結合聯合多通道嵌入和跨通道散列,基於卷積神經網絡在圖像的無縫結合,複發性神經網絡在句子,結構化max-margin目標整合了所有的東西在一起使學習similarity-preserving和高質量的哈希碼。綜合的實證結果表明,我們的DVSH模型在流行的圖像-句子數據集的跨模態檢索實驗中,即標準的IAPR TC-12和大規模的Microsoft COCO中,得到了最先進的結果。

2.相關工作

這項工作與跨模態哈希有關,它是機器學習、數據挖掘和多媒體檢索社區中一個日益流行的研究主題[4,22,44,45,33,31,30,37,38,41,8,16,43,27,39,25]。我們建議讀者參考[36]進行全面的調查。

現有的跨模態哈希方法大致可分爲無監督方法和監督方法。無監督哈希方法學習哈希函數,該函數僅使用未標記的訓練數據將輸入數據點編碼爲二進制代碼。典型的學習準則包括重構誤差最小化[8,37],相似度保存爲基於圖的哈希[22,33],量化誤差最小化爲相關量化[39,29]。監督哈希方法探索監督信息(例如,相對相似或相關反饋),以學習緊湊哈希編碼。典型的學習方法有度量學習[4,25]、神經網絡[30]和相關分析[43,39]。由於監督哈希方法可以挖掘語義信息,增強跨模態相關性,減少語義鴻溝[32],因此在跨模態檢索中,它比非監督方法具有更高的準確性。

以往基於淺層架構的跨模態哈希方法大多不能有效地利用跨不同模態的異構相關結構。最新的多模態嵌入深度模型[9,20,18,6,10,15]表明,深度學習可以更有效地捕獲異構信息的跨模態關聯用於圖像描述和跨模態推理,但如何將這些深度模型擴展到跨模態哈希仍不清楚。最近的深度哈希方法[40,23,5,46]已經給出了許多數據集的最新結果,但這些方法只能應用於單模態檢索。據我們所知,這項工作是跨模態深度哈希的第一個端到端的學習方法,它能夠有效地跨模態檢索圖像以響應文本-句子查詢,反之亦然。 

3.深度網絡初步研究

3.1卷積神經網絡(CNN)

爲了學習視覺數據的深度表示,我們從AlexNet[21]開始,它是深卷積網絡(CNN)架構,贏得了2012年的ImageNet ILSVRC挑戰。AlexNet由5個卷積層(conv1 conv5)和3個全連接層(fc6 fc8)組成,如圖3所示。每個完全連接的層l學習一個非線性映射。 = ,這裏是圖像x的第l層激活值, 是第l層的權重和偏置。 是激活函數,作爲Conv1-fc7層的修正線性單元(ReLU) 。與全連通層不同,每個卷積層是一個大小爲h×w×d的三維數組,其中h和w是空間維度,d是特徵或信道維度。第一層爲輸入圖像,像素大小爲h×w,顏色通道爲d。高卷積層中的位置對應於它們所連接的圖像中的位置,這稱爲接受域。

CNNs是建立在翻譯不變性[6]上的。它們的基本組件(卷積、池化和激活函數)作用於局部輸入區域,並且只依賴於相對的空間座標。將xij表示特定層中位置(i, j)處的圖像向量,hij表示下一層,這些卷積層中的函數通過hij計算

   (1)

k被稱爲內核大小,s是步長或次抽樣的因子,和決定了層類型:一個卷積矩陣乘法或平均池、一個空間最大值爲最大池化、或一個激活函數的元素非線性,所以在其他類型的層。這種功能形式在組合下維護,內核大小和步長遵循以下轉換規則

  (2)

一般的深度網絡計算一般的非線性函數,而只有這種形式的層的網絡計算非線性濾波器,我們稱之爲深度濾波器或特徵映射。

3.2長短時記憶(LSTM)

爲了研究序列數據的深度表示,我們採用了長短時記憶(LSTM)遞歸神經網絡[14]。儘管複發性神經網絡(RNNs)已被證明成功的任務,比如語音識別和文本生成,很難訓練他們學會長期動態,可能部分原因是消失和爆炸梯度的問題,可以從傳播梯度下降的結果通過經常性的多層網絡,每個對應一個特定的步伐。LSTMs通過整合內存單元提供了一種解決方案,該內存單元允許網絡瞭解何時忘記以前的隱藏狀態,以及何時根據新信息更新隱藏狀態。

圖2:LSTM內存單元的關係圖。

在本文中,我們採用了[35,42,6]中所描述的LSTM單元,這是對[11]中所描述的LSTM單元的一個略微簡化,如圖2所示。使 作爲sigmoid激活函數使得真值映射到[0,1]範圍內,讓 作爲雙曲正切函數,類似地映射它的輸入到[-1,1]的範圍內,LSTM根據給定的輸入 在每個時間步長t更新。

  (3)

這裏 是相應的每個時間步長t的輸入門,忘記門,輸出門,輸入調製門,存儲單元和隱藏單元。權重矩陣有一個明顯的含義: 輸入-忘記門矩陣是隱藏輸入門矩陣。因爲 和 的激活函數是sigmoid函數,它們的值是[0,1],並且他們學會了控制有多少記憶單元忘記以前的記憶或考慮當前的輸入。類似的,輸出門 學習有多少存儲單元轉化成隱藏單元。考慮記憶細胞,它是兩個部分的總和:先前的記憶單元由遺忘門調製,由輸入門調製。這些附加的門使LSTM能夠學習更復雜和更長期的時間動態,而不能從RNN中獲得。通過使用l-1層中的LSTM的隱藏狀態作爲l層中的LSTM的輸入,額外的深度可以通過將它們疊加在一起來增加LSTMs。

LSTMs用於在視覺和自然語言問題中建模順序數據的優點是:(1)與當前的視覺系統集成時,LSTMs可以直接進行端到端調優;(2) LSTMs不侷限於固定長度的輸入或輸出,允許對不同長度的連續數據(如文本或視頻)進行簡單建模。

4. 深VISUAL-SEMANTIC哈希

在跨模態檢索系統中,數據庫由一種模態的對象組成,查詢由另一種模態的對象組成。摘要研究了一種新的跨模態哈希方案,給出了對應於圖像的圖像-句子對和正確描述圖像的文本句子對。通過學習N個雙峯對象的訓練集,揭示了圖像與文本之間的相關結構,這裏 表示圖像模態的dx維特徵向量, 表示由單詞序列組成的句子i, 這裏 ∈ 爲表示第i句中時間t的單詞的一個獨熱向量(yit的非零元素表示該單詞在大小爲Dy的詞彙表中的索引)。一些雙模對象對與相似標籤相關聯,其中Sij=1表示OI和oj相似,Sij=1表示OI和oj不同。在有監督的跨模態哈希中,S = {sij}是由數據點的語義標籤或點擊通過數據的相關反饋構成的。

我們提出了一種新的基於深度視覺語義哈希(DVSH)的跨模態檢索方法,它學習(1)一個端到端的雙峯融合函數,該算法將圖像和文本映射到一個k維聯合漢明嵌入空間H中,使每個圖像-句子對的嵌入緊密融合,以橋接不同的模態,同時保留給定雙峯對象對S中所傳遞的相似信息;(2)兩個特定於模式的散列函數 和 ,在聯合嵌入空間H中,將數據庫和查詢中的每個圖像x和語句y編碼爲緊湊的二進制哈希碼u {1,1}K和v {1,1}K,實現高效的跨模態檢索。

圖3中提出的跨模態深度哈希方法(cross-modal deep hashing approach, DVSH)是一種用於跨模態哈希的端到端深度架構,它包括用於學習圖像表示的卷積神經網絡(convolutional neural network, AlexNet)和用於學習文本表示的遞歸神經網絡(neural network, LSTM)。該架構接受成對的輸入,並在端到端的深度表示學習和哈希編碼管道中處理它們:(1)一種用於在聯合嵌入空間中學習同構哈希碼的深度視語義融合網絡,使每個圖像-句子對的表示緊密融合並關聯;(2)一種用於學習非線性模態特定哈希函數的圖像哈希網絡和句子哈希網絡,該哈希網絡將每個不可見的圖像和句子編碼爲聯合嵌入空間中的壓縮哈希碼;(3)提出了一種新的餘弦最大裕度損失算法,以保留成對的相似信息,增強對異常值的魯棒性;(4)一種新穎的按位maxmargin損失來控制二進制哈希碼的質量。

4.1 Visual-Semantic融合網絡

跨模態檢索的挑戰在於,跨模態數據(圖像和文本)具有顯著不同的統計特性(異構性),這使得基於手工特徵的跨模態相關性很難捕獲。最近有研究發現,深度卷積網絡(deep convolutional networks, CNNs)[21]和深度遞歸網絡(deep networks, RNNs)[35]等深度學習方法在許多現實感知問題上取得了性能上的突破。深層結構能夠有效地提取不同模態共享的多模態嵌入信息,能夠有效地橋接不同模態的非線性特徵表徵[2,9,34,19,20,6,18]。因此,我們通過設計一種深度的視覺語義融合來利用深度網絡進行跨模態聯合嵌入網絡見圖3的左部,該地圖的深層特徵表示圖像和文本等共享visual-semantic嵌入空間的對應關係傳達image-sentence一對可以最大化而成對相似性信息轉達了相似的標籤可以被保留下來。

圖3:深度視覺語義哈希(DVSH)的體系結構,這是一種端到端的圖像-句子跨模態檢索的深度哈希方法。該體系結構包括四個關鍵部分:(1)用於學習聯合嵌入空間同構哈希碼的深度可視化語義融合網絡(統一CNN和LSTM);(2)圖像哈希網絡(CNN)和句子哈希網絡(LSTM),用於學習將輸入映射到聯合嵌入空間的非線性模態特定哈希函數;(3)保留成對相似信息的新的餘弦最大裕度損失;(4)一種新穎的按位最大裕度損失來控制二進制哈希碼的質量。彩色模塊是本文修改或新制作的模塊。彩色效果最佳。

提出的深度視覺語義融合網絡將每個視覺輸入(本例中的圖像)通過深度卷積神經網絡(CNN)生成一個固定長度的向量表示。注意,我們將原來AlexNet[21]的fc8層中的softmax分類器替換爲一個feature map,它將圖像特徵從fc7層映射到k維的新特徵。我們採用LSTM作爲我們的序列模型,它在時間步t映射每個序列的輸入(在我們的例子中是一個句子),並將之前的時間步(t1)的一個隱藏狀態映射到一個輸出並更新隱藏狀態。因此,推理必須按順序運行(即圖3中從上到下),使用式(3)按順序計算激活,即根據(t1)-th狀態更新第t狀態。

爲了將CNN和LSTM集成到一個統一的深度可視化語義嵌入模型中,在每個狀態下,將計算得到的視覺輸入的特徵空間表示融合到LSTM模型的第二層,如圖3所示。具體來說,序列(文本句)中t-th狀態(單詞)的融合層(綠色的LSTMs)激活可以計算如下 :

  (4)

其中f(·)表示對第二層LS TM的時間步長t的更新,方法是將xt、hxi和它替換爲方程(3)。注意,要減少融合層的激活層中與最終的二進制哈希編碼之間的差距,我們先使用雙曲正切(tanh)激活函數把激活值 擠壓到[-1,1]的範圍內,這種融合操作對體現多模態視義嵌入空間具有重要意義。前面提到的按時間步長的融合將可視化和文本嵌入合併爲一個統一的嵌入。然而,每一個時間步長t都會產生一個聯合嵌入 ,而我們期望每個圖像-文本對只產生一個融合代碼,以使跨模式檢索有效。爲此,我們採用了[12]分佈的平均嵌入技術,並通過加權平均爲每個圖像-句子對生成對級融合碼 :

  (5)

∈{1, 0}是指標變量, = 1如果有t的步伐,和 = 0。我們處理這些情況是因爲文本句子的長度是可變的,而且有些句子比LSTMs中的狀態數T還短。值得注意的是,所推導的聯合視義嵌入不僅分別利用CNN和LSTM捕獲了句子的空間依賴性和時間動態性,而且還捕獲了多模態漢明嵌入空間中的跨模態關係。爲了獲得最優的二值編碼聯合嵌入空間,需要對訓練數據進行聯合嵌入,以保留訓練數據中兩兩相似的信息,並用位超平面很好地進行分割。

4.1.1 Cosine Max-Margin損失

爲了使學聯合visual-semantic嵌入最大限度保留相似信息在不同的模式,我們提出以下準則:爲每一對對象,如果sij = 1,表明是相似的,那麼他們的哈希碼必須相似的不同形式(圖片和句子),相當於要求共同visual-semantic嵌入應該是相似的。相應的,如果sij = -1,表示oi和oj不相似,那麼它們的共同視覺語義嵌入hi和hj應該不相似。我們用餘弦相似度 用於測量hi和hj之間的親密度,其中hi·hj爲hi與hj的內積,爲向量的歐氏範數。對於保留相似性學習,我們建議最小化下列餘弦最大裕度損失:

  (6)

其中c > 0是margin參數,它被固定爲 = 0.5。這一目標鼓勵相似的圖像-句子對比不相似的圖像-句子對有更高的餘弦相似度。與支持向量機類似,最大裕度損失增強了對異常值的魯棒性。餘弦最大裕度損失在交叉模態相關分析中尤其強大,因爲不同模態下的向量長度差異很大,可能會使許多距離度量(如歐幾里得距離)以及損失函數(如平方損失)被錯誤指定。到目前爲止,這個問題還沒有在跨模態深度哈希方法[36]的研究。

4.1.2 位級最大-Margin損失

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章