LXMERT 實驗

論文: Learning Cross-Modality Encoder Representations from Transformers 

地址:https://arxiv.org/abs/1908.07490?context=cs

code:https://github.com/airsplay/lxmert

 

LXMERT 框架來學習語言和視覺的聯繫

創新點:創造新的跨模態模型,着重於學習視覺和語言的交互作用。

 

  • Input Embeddings

在LXMERT中的輸入編碼層將輸入(即圖像和句子)轉換爲兩個特徵序列:詞級句子嵌入和對象級圖像嵌入。

這些嵌入特性將由後面的編碼層進一步處理。

 

  • 它含有3個Encoder:一個對象關係編碼器 N_R 、一個語言編碼器 N_L 和一個跨模態編碼器 N_X

 

 

  • 它使用了 5 個不同的有代表性的pre-train任務:
  1. 掩碼交叉模態語言建模
  2. 通過ROI特徵迴歸進行掩碼目標預測
  3. 通過檢測到的標籤分類進行掩蔽目標預測
  4. 交叉模態匹配
  5. 圖像問題解答

這些多模態pre-train既可以幫助學習同一個模態內的聯繫,也可以幫助學習跨模態的聯繫。

 

Fine Tune

https://www.jianshu.com/p/4b17dcc199e1

Google Bert模型

https://zhuanlan.zhihu.com/p/46652512

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章