Modality to Modality Translation: An Adversarial Representation Learning閱讀筆記

Modality to Modality Translation: An Adversarial Representation Learning and Graph Fusion Network for Multimodal Fusion

通過使用一個新型的對抗的編碼解碼分類框架用於學習模態不變的嵌入空間,來減少模態之間的差異。

  • 文中用到了模態傳譯方面的知識,由模態傳遞所引發產生一個對抗的編碼框架,也就是說,生成器從單一模態特徵中生成一個較好的編碼表示,而判別器則需要判別這個表示是否是目標模態所生成的。
  • 同樣,作者定義了一些解碼器,這些解碼器的作用是,重建出編碼前的特徵,用於減少和檢測編碼器和損失程度。
  • 提出了一個層次化的概念,多模態如何是一個層次化的過程,先是兩個模塊之間的相互互動,然後是多模態的相互互動。也叫做圖融合網絡框架 (雙模態之間的交互

模型結構

在這裏插入圖片描述

編碼空間學習

  • GAN 對抗訓練 用於---- > 產生較好的編碼空間
  • 引入reconstruct loss 使用decoder 用於 減少encoder 的損失
  • 引入 classification loss 使得編碼更具有區分性

這部分作者用對抗訓練的方法來實現一個好的多模態表示

圖網絡融合框架

這是一個層次化的融合網絡,它分爲三個階段

在這裏插入圖片描述

  • 階段一 單模態動態學習層

    使用 MAN (Modality Attention Network )來對每個模態的編碼空間學習層得到的向量進行 處理, 並且得到每個模態的重要性, 計算各個模態的加權

  • 階段二 雙模態動態學習層

    把兩個模態的圖頂點通過一個多層神經融合網絡進行融合來得到一個雙模態的圖頂點,爲了得到每條邊的權重,我們首先計算了兩個單模態向量間的相似性,作者假定模態之間的相似性越高,那麼他們的權重則越低, 計算各個雙模態的加權

  • 階段三 三模態動態學習層

    與上一個階段相同,將雙模態的頂點進行融合,得到一個三模的頂點,除此之外,他還通過將雙胞胎的頂點和上一層的單模態頂點進行融合,最終得到6個頂點狀態。各個三模態的加權

把三個階段得到的模態加權進行連接,融合的總特徵。

總結

  • 這篇文章講了主要是兩個方面,
    • 第1個方面是每個模態都各自提取出各自的特徵,如何將這些提取的特徵映射到同一個嵌入空間
    • 第2個方面是作者通過圖融合網絡將這些嵌入空間後的特徵進行模態融合,最終得到一個好的總特徵。
  • 在融合層面並不是說一次性就融合一個三模態,而是單模態的融合加雙模態融合加三模態融合,這是一個較爲創新的點,它雖然是分層次進行提取的,但是在最終的融合模塊是將三個層次的特徵進行了拼接。,但是這樣可能信息會有一點重複,因爲你的三模態就是通過單模態和雙模態的特徵進行提取。

總體來說,這篇文章使用GAN的思想, 對抗訓練的方法,得到三個模態的較好的多模態表示,然後使用一個層次化的特徵融合框架,進行多模態融合。作者使用了非常多常見的方法和思想,但是這些思想綜合起來成爲了一個非常有效果的框架。

一般來說對抗學習是用於做文本生成這樣的一些東西,但是用於多模態的特徵表示是比較有新意而且有效果的,值得學習。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章