基於BERT的多模態應用:圖像,視頻如何通過BERT處理

基於BERT的多模態應用:圖像,視頻如何通過BERT處理

本次分享的是結合了預訓練的語言模型BERT和視覺方面的結合。分爲單流模型和雙流模型。單流模型指在訓練開始前融合多模態數據,雙流模型是先對多模態數據進行獨立編碼,在進行融合。

文本介紹的1-4模型爲單流模型,5-6爲雙流模型。

1. VideoBERT: A Joint Model for Video and Language Representation Learning

視頻+文本的訓練方法

通過automatic speech recognition (ASR)模塊和vector quantization(VQ)模塊,加上BERT形成整個模型。其中ASR模塊是用來識別語音的神經網絡模塊,用來將視頻中的語音翻譯成文本。VQ模塊用來提取視頻中圖像的特徵。

模型採用了sequence word+sequence video的結構訓練。結合構圖如圖所示:
在這裏插入圖片描述
輸入數據爲視頻語音文字拼接視頻圖像。並採用了BERT原文中常見的mask方法。

2. VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE

同VideoBERT,VisualBERT同樣使用了輸入數據=image+text的形式。但是區別是在訓練開始時先使用Transformer的self attention機制對圖像數據和文本進行融合。

其中,text部分使用word token mask。使用RCNN對圖像處理,形成圖像的分割,再對分割後的圖像進行掩模。

3. Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

同樣是訓練開始時對數據融合,區別是使用了Faster-RCNN處理圖像,使用了圖像區域特徵和圖像位置進行編碼。

4. VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS

與2,3工作沒有太多本質上的區別。使用了預訓練方法MLM處理輸入數據。訓練任務爲MLM,圖像標籤分類,圖像語言匹配任務。

5. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

使用了先編碼,後融合的方法。在編碼後,使用了context attention對圖像和文本配對。訓練任務爲預訓練MLM,圖像語言匹配任務。

6. LXMERT: Learning Cross-Modality Encoder Representations from Transformers

與5差不多
訓練任務爲預訓練MLM,圖像語言匹配任務,圖像掩模,圖像問答任務。

Ref:
VideoBERT: A Joint Model for Video and Language Representation Learning
VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training
VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
LXMERT: Learning Cross-Modality Encoder Representations from Transformers

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章