多模態筆學習記

多模態學習筆記

多模態-不同形式的數據融合在一起訓練模型:文本,圖像,語音,視頻,雷達,紅外等。換句話說每一種信息的形態都是一種模態。

多模態融合的方法

多模態融合是多模態研究中非常關鍵的研究點,它將抽取自不同模態的信息整合成一個穩定的多模態表徵。多模態融合和表徵有着明顯的聯繫,如果一個過程是專注於使用某種架構來整合不同單模態的表徵,那麼就被歸類於fusion類。而fusion方法又可以根據他們出現的不同位置而分爲late和early fusion。因爲早期和晚期融合會抑制模內或者模間的交互作用,所以現在的研究主要集中於intermediate的融合方法,讓這些fusion操作可以放置於深度學習模型的多個層之中。而融合文本和圖像的方法主要有三種:基於簡單操作的,基於注意力的,基於張量的方法。
參考小奚每天都要學習

簡單操作

來自不同的模態的特徵向量可以通過簡單地操作來實現整合,比如拼接和加權求和。這樣的簡單操作使得參數之間的聯繫幾乎沒有,但是後續的網絡層會自動對這種操作進行自適應。

  • 直接concat:分別處理好每個模態的特徵然後進行拼接,這樣基本上是不考慮每個模態是否進行拼接的
  • Weighted sum 對於權重爲標量的加權求和方法,這種迭代的辦法要求預訓練模型產生的向量要有確定的維度,並且要按一定順序排列並適合element-wise 加法[6]。爲了滿足這種要求可以使用全連接層來控制維度和對每一維度進行重新排序。參考小奚每天都要學習

注意力機制融合

自下而上的注意力機制是通過使用目標檢測算法(如faster rcnn)來首先挑選出一些列的圖像候選區域,而自上而下的注意力機制則是要把視覺信息和語義特徵拼接從而生成一個帶有注意力的圖像特徵向量,最終服務於圖像描述和VQA任務。同時,帶有注意力的圖像特徵向量還可以和文本向量進行點乘。

  • 圖和文本的對稱注意力機制
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章