兩篇利用遷移學習進行跨媒體檢索的paper

 


理想的跨模態公共表示:

1、很強的語義辨別能力:要有效的增強不同模態的語義一致性(即無論數據來自哪個模態,只要他們在語義上相同,共同表達就應該相似)

2、減少的模態的異質性差異(要讓生成的共同表達只與語義相關,與模態無關)


這兩篇文章都是將大規模的數據集(imagenet)遷移到小規模的跨模態數據集中,解決跨模態數據集數據規模不足的問題,以更好地進行跨模態檢索。


一、Cross-modal Common Representation Learning by Hybrid Transfer Network 

1. Introduction:

本文提出了一個具有兩個子網的跨模態傳輸模型。

跨模態混合遷移網絡(CHTN):

模態共享遷移子網:利用源域和目標域都有的模態(圖像)作爲橋樑,將源域的知識傳給目標域的兩種模態。

層共享關聯子網:保留了固有的跨模態語義相關性,以進一步適應跨模態檢索任務。

 

2. Models:

   

2.1  模態共享遷移子網(Modal-sharing Transfer Subnetwork):

首先,圖像用AlexNet的五個卷積層(conv1-conv5)得到卷積特徵並且接收文本向量;然後,圖像特徵映射和文本經過兩個全連接層,在全連接層中進行知識遷移。

單模態知識遷移(Single-modal knowledge transfer):

使用特徵自適應的方法(feature adaptation method),最小化源域和目標域之間的最大平均差異 (MMD, Maximum Mean Discrepancy),通過最小化MMD,使遷移模型有效匹配目標域的分佈,從而實現同一模態下的知識遷移。

(MMD:用於雙樣本的檢測(two-sample test),判斷兩個分佈p和q之間的相似性。它的基本假設是:如果對於所有以分佈生成的樣本空間爲輸入的函數f,如果兩個分佈生成的足夠多的樣本在f上的對應的像的均值都相等,那麼那麼可以認爲這兩個分佈是同一個分佈。[3])

      

此外,源域的層需要在源標記的實例上進行自我微調。這樣,可以利用源域標籤提供輔助監督信息,指導單模知識傳遞。

源域監督損失爲:

,其中 

通過最小化單模態遷移損失和源域監督損失,可以有效減小兩個域之間圖像模態的差異,實現單模態知識遷移。

 

跨模態知識遷移(Cross-modal knowledge transfer):

主要思想:讓成對數據的高層(high-level layers)表示彼此相似。具體而言,採用跨模態高層(fc6-i/fc6-t、fc7-i/fc7-t)之間的歐氏距離作爲跨模態知識遷移的損失。

將跨模態成對差異性定義爲:   

則其損失爲: 

 

2.2  層共享關聯子網(Layer-sharing Correlation Subnetwork):

不同模態間的內在語義關聯是跨模態檢索的關鍵信息,是跨模態數據集的本質屬性。

該子網是一種簡單而有效的跨模態檢索結構,具有圖像和文本共享的層。圖像文本共享兩個全連接層(fc8和fc9),再進入同一個分類層(fc10)。

由於fc8和fc9的參數是圖像和文本共享的,因此可以利用跨模態目標域中的監督信息來保證不同模態的語義相關性。考慮到目標域中兩個成對模式的標籤,相關損失爲:

這兩個子網是一個統一的體系結構,共同訓練,相互促進。

 


 

二、MHTN: Modal-Adversarial Hybrid Transfer Network for Cross-Modal Retrieval 

1. Introduction:

模態-對抗混合遷移網絡:實現從單一源域到跨模態目標域的知識遷移,並學習跨模態公共表示。

具有兩個子網絡的端到端的結構:

  • 模態共享知識遷移子網:利用星型網絡結構將知識從源域中的一個單一模態轉移到目標域中的所有模態。它是一種從單模態源域到跨模態目標域的混合遷移過程,可以共同最小化跨域分佈差異(源域圖像和目標域圖像)和跨模態成對差異(目標域五種模態)。
  • 模態對抗語義學習子網:在共同表達生成器和模態鑑別器之間構建一種對抗訓練機制,前者的目的是生成語義表徵,使其對模態不加區分,後者則試圖區分共同表達來自哪個模態,二者相互對抗,相互促進。使共同表達具有語義鑑別力,而對模式不加區分,以增強遷移過程中的跨模態語義一致性。

 

2. Models:

               

2.1 模態共享知識遷移子網

同上一篇paper,單模態知識遷移:從源域圖片遷移到目標域圖片,並最小化他們的MMD損失。

跨模態知識遷移:從目標域圖像到目標域其他四種模態,並最小化歐幾里得距離。

在該子網的總體結構中,圖像模態作爲一個共享橋樑,將單模態和跨模態遷移部分連接起來,形成了混合遷移結構。通過該子網絡,可以將源域中包含的語義知識遷移到跨模態目標域中的所有模態。

2.2 模態對抗語義學習子網

同時訓練一個生成模型和一個判別模型。

              

第一行是生成模型和上篇文章相同,下面是新增的判別模型。

上一個子網的輸出 Z_c 先被送入全連接層,生成共同表達,然後進入兩個損失分支:語義一致性學習和模態對抗一致性學習。

語義一致性學習:

在這個分支中,我們讓跨模態公共表示在語義上有區別。由於所有的模態共享相同的全連接層,在目標域監督信息的指導下,可以保證跨模態語義一致性。

爲了實現這一目標,採用一個全連接層作爲具有softmax損失的共同分類層(fc10)。語義一致性損失爲:

          

模態對抗一致性學習:

我們希望共同表達是模態無關的,該部分用來鑑別數據來自哪個模態,並與生成器做對抗(生成器已經混淆了部分模態)。

由一個grl、兩個全連接層、一個模態分類層組成。新增的grl層,可以區分不同的域,減少不同數據域間的差異。(GRL is an identity transform during the forward propagation, but it multiplies the gradients from the following layers by −λ during the backpropagation, where λ is a positive value. )

在訓練階段,每個實例都被分配一個one-hot encoding vector來指示它屬於哪種模態,模態對抗一致性損失是:

在測試階段,可以將目標域中的每個測試實例轉換爲類概率向量,作爲最終的公共表示R。

 

 


參考文獻:

[1] Cross-modal Common Representation Learning by Hybrid Transfer Network 

[2] MHTN: Modal-Adversarial Hybrid Transfer Network for Cross-Modal Retrieval 

    

[3] MMD :maximum mean discrepancy

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章