基於BERT的多模態應用:圖像,視頻如何通過BERT處理
本次分享的是結合了預訓練的語言模型BERT和視覺方面的結合。分爲單流模型和雙流模型。單流模型指在訓練開始前融合多模態數據,雙流模型是先對多模態數據進行獨立編碼,在進行融合。
文本介紹的1-4模型爲單流模型,5-6爲雙流模型。
1. VideoBERT: A Joint Model for Video and Language Representation Learning
視頻+文本的訓練方法
通過automatic speech recognition (ASR)模塊和vector quantization(VQ)模塊,加上BERT形成整個模型。其中ASR模塊是用來識別語音的神經網絡模塊,用來將視頻中的語音翻譯成文本。VQ模塊用來提取視頻中圖像的特徵。
模型採用了sequence word+sequence video的結構訓練。結合構圖如圖所示:
輸入數據爲視頻語音文字拼接視頻圖像。並採用了BERT原文中常見的mask方法。
2. VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE
同VideoBERT,VisualBERT同樣使用了輸入數據=image+text的形式。但是區別是在訓練開始時先使用Transformer的self attention機制對圖像數據和文本進行融合。
其中,text部分使用word token mask。使用RCNN對圖像處理,形成圖像的分割,再對分割後的圖像進行掩模。
3. Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training
同樣是訓練開始時對數據融合,區別是使用了Faster-RCNN處理圖像,使用了圖像區域特徵和圖像位置進行編碼。
4. VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS
與2,3工作沒有太多本質上的區別。使用了預訓練方法MLM處理輸入數據。訓練任務爲MLM,圖像標籤分類,圖像語言匹配任務。
5. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
使用了先編碼,後融合的方法。在編碼後,使用了context attention對圖像和文本配對。訓練任務爲預訓練MLM,圖像語言匹配任務。
6. LXMERT: Learning Cross-Modality Encoder Representations from Transformers
與5差不多
訓練任務爲預訓練MLM,圖像語言匹配任務,圖像掩模,圖像問答任務。
Ref:
VideoBERT: A Joint Model for Video and Language Representation Learning
VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training
VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
LXMERT: Learning Cross-Modality Encoder Representations from Transformers