MuLTI:高效視頻與語言理解

一、背景

1.1 多模態的發展

多模態理解模型具有廣泛的應用,比如多標籤分類(Classification)、視頻問答(videoQA)和文本視頻檢索(Retrieval)等。現有的方法已經在視頻和語言理解方面取得了重大進展,然而,他們仍然面臨兩個巨大的挑戰:

1、在處理長序列時平衡計算效率和模型性能。

2、減少預訓練和下游任務之間的領域差距。

多模態理解模型一般由三個模塊組成:文本編碼器(Text Encoder)、視頻編碼器(VIdeo Encoder)和特徵融合模塊(Feature Fusion)。後兩者通常會導致較高的計算成本。

對於特徵融合模塊,很難做到既高效又有效。以前的一些工作,比如VIOLET和Clover,它們直接連接視頻和文本編碼器的輸出,然後由Transformer的Encoder進行特徵融合,此時模型的計算複雜度和顯存消耗與級聯序列長度的平方成正比,當長文本與長視頻輸入到這些模型中時,特徵融合所消耗的顯存消耗會大幅度上升。爲了減輕計算負擔,一些工作如ALPRO,FrozenBiLM,CLIPBert在特徵融合之前通過均值池化或Class Token的方式壓縮視頻特徵,然而,在多模態融合之前將所有信息壓縮到一個向量中可能會丟失重要的細節。一些工作如Flamingo採用Sampler和隨機查詢來進行有效的視頻特徵壓縮,這種方法是次優的,可能會損害視頻特徵的完整性。基於上述分析,我們面臨了一個難題:如果去壓縮特徵,容易導致特徵的細節丟失;如果不壓縮處理特徵,特徵融合的顯存佔用過大。此時,如何平衡模型的計算量和準確性是特徵融合模塊的挑戰。

圖1

如何將預訓練與下游任務相結合也是一項挑戰。以前的預訓練框架通常應用四個典型的預訓練任務:用於視頻編碼器優化的掩碼幀建模(MVM)任務,用於文本編碼器優化的掩碼語言建模(MLM)任務,用於視頻和文本編碼器的聯合優化的視頻文本匹配(VTM)和視頻文本比較(VTC)任務。在大規模視頻文本數據集上進行預訓練可以顯著提高視頻文本模型的性能。然而,現有的預訓練任務和下游任務之間仍然存在領域差距,特別是在視頻QA中。將videoQA引入預訓練任務的困難在於構建合適的問答對。

1.2 模型的提出

爲了應對這些挑戰,我們像圖1(d)一樣設計 MuLTI。它具有用於序列壓縮和多模態融合的文本引導多路採樣器(Text-Guided MultiWay-Sampler)。現有的方法如Flamingo,通常使用可學習的查詢向量(Query)通過採樣器對視頻特徵進行採樣。隨機初始化的查詢向量可能會丟棄重要的原始特徵信息,從而導致性能下降。我們在文本引導多路採樣器中設計了一種輕量級的自適應池方法,通過計算每個序列塊的重要性來獲得壓縮特徵。然後,我們將壓縮特徵添加到採樣特徵中,並使用短文本特徵對長視頻特徵進行採樣和融合。我們共享了採樣器與特徵融合模塊的注意力權重,併爲採樣器中的不同模態保留不同的前饋網絡。

圖1顯示,以前的模型(a)和(b)通過其冗長的級聯特徵融合消耗了大量的GPU內存。(b)和(c)都壓縮視頻特徵,這是一種常見的選擇,因爲與文本相比,它們的長度更大。然而,由於視頻特徵中的信息豐富,過度壓縮可能會損害性能。相反,我們設計了類似於(d)的MuLTI,並引入了文本引導的多路採樣器來有效地壓縮文本特徵以進行融合。由於文本更簡潔準確,我們使用精簡的文本來指導視頻特徵採樣,從而提高了性能。

爲了減少視頻QA中預訓練任務和下游任務之間的領域差距,我們引入了一種新的預訓練任務——多選建模(Multiple Choice Modeling,MCM)並基於WebVid2M與CC3M數據集進行了預訓練。MCM可以通過在大規模視頻文本數據集上構建多項選擇題回答任務來彌合預訓練任務和下游任務之間的任務差距。它要求模型從隨機構建的集合中找到與視頻最匹配的文本描述,這增強了視頻和文本編碼器的表示能力以及視頻和文本特徵之間的對齊。

  • 我們提出了MuLTI,這是一個高度準確和內存高效的視頻和語言框架,它通過特徵採樣和注意力模塊實現了高效和有效的特徵融合。
  • 我們提出了一種文本引導多路採樣器(Text-Guided MultiWay-Sampler)來對長序列特徵進行採樣,並促進視頻和文本特徵之間的交互,從而降低內存成本並提高性能。
  • 我們設計了一種新的預訓練任務,稱爲多選建模(MCM),以建好預訓練和下游任務之間的任務差距。在七個英語任務和一個漢語多標籤分類任務上的實驗結果證明了MuLTI的有效性。

二、模型結構

2.1 視覺與文本編碼器

2.2 特徵融合模塊

圖2

多模態融合模塊的核心是Text-Guided MultiWay-Sampler,如圖2(b)所示。多路採樣器由Transformer的Decoder修改而來。具體而言,我們設計多路採樣器模塊來有效地壓縮文本特徵並融合不同的模態特徵。

 
 
 
 

2.3 不同型號的MuLTI

在本節中,我們考慮在有足夠資源的情況下實現更高的性能。我們首先將視頻編碼器從VIT-B/16替換爲VIT-L/14,並將文本編碼器從Bert-Base替換爲Bert-Large。然後,我們得到MuLTI-L。此外,爲了滿足有限資源的訓練要求,我們將視頻編碼器從VIT-B/16替換爲VIT-B/32,並將文本編碼器從12層減少到6層。不同模型的浮點運算(FLOPs)、參數(Params)和每秒幀數(FPS)顯示在表1。

表1

三、模型的預訓練

我們使用四個目標對 MuLTI 進行預訓練,包括三個經典的目標:Masked Language Modeling (MLM),Video Text Matching(VTM),and Video Text Comparison(VTC)。 在本節中,我們重點介紹我們提出的一種新技術:Multiple Choice Modeling(MCM)。

儘管MLM、VTC、VTM已經證明了它們在學習視頻和文本表示方面的有效性,但預訓練任務和下游任務(如視頻問答)之間仍然存在很大的領域差距。將視頻問答引入預訓練任務的難點在於如何構建合適的問答對。選擇題是視頻問答的常見形式。受多項選擇題的啓發,我們發現原始配對視頻文本描述是自然正確的答案。在這個基礎上,我們引入了Multiple Choice Modeling(MCM),這是一種新的預訓練任務,提高了模型對視頻問答題的敏感性。具體來說,它的結構如下,這是一個四選擇題。

"[CLS]<Question> ? [SEP] Option 1: <Answer 1>. [SEP] Option 2: <Answer 2>. [SEP] Option 3: <Answer 3>. [SEP] Option 4: <Answer 4>."

我們將正確的描述隨機放入

中,並通過文本語料庫獲取正確描述以外的答案。問題也有多種選擇,如"What does this picture describe?","What does this video describe?","What can we learn from the video?"等。 MCM 不需要大量額外的手動註釋或大量的數據預處理,這是一種高效且可擴展的解決方案。 MCM 的動機是加強模型對 videoQA 任務的敏感性。 由於 MCM 可以提高模型從文本中提取視頻相關內容的能力,這也提高了模型在文本視頻檢索任務上的性能。

考慮到 MLM、VTM 和 VTC的有效性,我們還採用它們進行預訓練。MLM 以 15% 的概率隨機屏蔽輸入標記,並用 [MASK] 替換它們,之後根據視頻和文本預測屏蔽的文本標記。VTC 將匹配的視頻文本對視爲正對,將批次中的其他視頻文本對視爲負對。VTM 與 VTC 非常相似,它預測視頻和文本描述是否相互匹配。 VTM需要通過特徵融合模塊來融合特徵,基於交叉熵損失而不是對比損失來訓練分類任務。MuLTI 的整體預訓練目標是:

四、實驗

4.1 實現細節

i、預訓練數據集

ii、下游任務與數據集

在視頻問答方向,MuLTI模型在五個廣泛使用的開放視頻QA任務上進行了評估:

  • MSRVTT-QA基於MSRVTT的視頻和字幕。該數據集有10k個視頻,其中有243k個問答對,該數據集中有1.5k個候選答案。
  • MSVD-QA基於MSVD的視頻和文本描述。該數據集有1970個視頻,其中有50k個問答對,該數據集中有2423個候選答案。
  • TGIF-QA要求模型瞭解GIF視頻的細節,以回答有關它們的問題。在TGIF-QA中,TGIF Action和TGIF Transition是多項選擇任務,而TGIF Frame是一項開放式視頻QA任務。

在文本視頻檢索方向,MuLTI模型在兩個廣泛使用Retrieval任務上進行了評估:

  • MSRVTT包含來自YouTube的10K個視頻和200K個註釋。我們遵循VIOLET,使用9k視頻進行培訓,使用1k視頻進行測試。
  • DiDeMo包含來自Flickr的10K個視頻,其中有40K個註釋。我們遵循CLIPBERT並將同一視頻中的所有註釋連接到標題中。

還有一箇中文的多標籤分類數據集:

  • 視頻標籤是在線廣告排名模型所需的重要特徵,我們構建了一個大規模的內部多標籤短視頻數據集,其中包含486k個短視頻,486k個文本字幕和21696個標籤。每個視頻文本對有多個標籤。標籤由來自短視頻推薦平臺的多位專業編輯進行交叉檢查。我們還應用了一個在icdar挑戰中具有最高性能的端到端文本檢測儀,爲每一幀生成OCR。每幀OCR拼接後截斷爲512。

4.2 建議方法的性能比較

表2 MSRQ代表MSRVTT-QA,MSVQ代表MSVD-QA

表2比較了MuLTI與現有方法在七個常用的公共數據集上的表現。

在視頻問答任務中,MuLTI在MSRVTT-QA、MSVD-QA、TGIF-Action、TGIF-Transition和TGIF-Frames等數據集上超過了所有已經發表的基線模型。表格中FrozenBILM的結果是沒有使用Speech的。總的來說,MuLTI在各種QA任務中實現了最先進的性能。

在文本-視頻檢索任務中,最有競爭力的文本-視頻檢索方法是基於CLIP的Vision Transformer和BERT在400M文本-圖像對上的預訓練。然而,儘管使用較少的預訓練數據,MuLTI在兩個基準任務上仍然具有很強的競爭力。值得注意的是,在使用DSL進行後處理後,MuLTI的性能優於CAMoE、QB-Norm和TS2-Net。

表3

表3比較了MuLTI與現有方法在多標籤數據集上的表現。

對於多標籤分類,我們將multi與VIOLET和ALPRO進行了比較,但排除了FrozenBiLM,因爲其尺寸不適合在線部署。VIOLET和ALPRO不使用OCR,因爲它們會導致V100 GPU內存不足。爲了進行公平的比較,我們還在表3中報告了MuLTI的無OCR的性能;MuLTI顯著超過VIOLET和ALPRO。

圖3

如圖所示,當訓練期間幀計數增加時,MuLTI保持的視頻內存成本不到ALPRO和VIOLET的一半,因爲其高效的融合模塊最大限度地減少了內存成本的增加。

表4 TGMS代表Text-Guided MultiWay-Sampler,PB代表Pretraining Baseline,MSRQ代表MSRVTT-QA,MSVQ代表MSVD-QA,MSRR代表MSRVTT-Ret

最後,我們在表4中評估了我們的主要技術貢獻。與基線模型相比,我們的主要技術貢獻提高了所有數據集的性能。文本引導多路採樣器增強了MuLTI的多模式融合能力,精確定位多餘視頻功能中的關鍵細節。MCM提高了模型的對齊能力,縮小了預訓練和下游任務之間的差距。

4.3 消融實驗:

i、文本引導多路採樣器的重要性

表5 MSRQ代表MSRVTT-QA,MSVQ代表MSVD-QA

圖4 F代表Flatten,E代表Encoder,D代表Decoder,S代表Sampler

我們在表5中比較了不同聚合方法的性能。結果表明,Flatten優於其他聚合方法,但需要大量的視頻內存。在模型結構的分析中,我們得知部分解碼器在長序列中使用的內存比編碼器少。雖然它可以很好地處理像MSRVTT-QA這樣的數據集。然而,但在處理長文本和視頻時,成本仍然很高。具體內存成本如圖4所示。

表6 CV代表壓縮視頻特徵,CT代表壓縮文本特徵,SS代表Shared-Sampler,AP代表Adapt- Pooling

Flamingo使用基於解碼器的採樣器濃縮視頻特徵,這是次優的。文本特徵更密集、更語義。通過使用文本查詢來過濾冗餘,語言指導對於從視頻表示中提取有用信息是必要的。表6比較了不同的壓縮方法,顯示了文本壓縮的優越性。

採樣器和特徵融合模塊使用相同的解碼器結構,可以在不影響性能的情況下共享權重,簡化了模型優化。我們共享採樣器和解碼器的自注意力權重,但爲每個模態保留單獨的FFN,在保持性能的同時減少參數。與Flatten方法相比,Shared-Sampler在MSRVTT-QA和MSVD-QA上的精度分別提高了0.32%和1.45%。

如表6所示,採樣器在壓縮文本和視頻特徵時會導致較差的性能。採樣器的隨機查詢向量具有丟失原始關鍵特徵的風險;我們設計了一個輕量級的聚合模塊Adapt-Pooling,以保留原有的功能。如表6所示,Adapt-Pooling提高了MSRVTT-QA和MSVD-QA的準確性。此外,我們探索了各種組合方法(添加、連接和相乘)都只有輕微的性能差異,在MSRVTT-QA上使用連接和相乘分別獲得了45.51%和45.45%的準確率。

爲了驗證這些技術的魯棒性,我們將其Shared-Sampler和Adapt-Pooling應用於壓縮視頻特徵,這也提高了性能。

ii、Multiple Choice Modeling的重要性

表7 PB代表Pretraining Baseline,MSRQ代表MSRVTT-QA,MSVQ代表MSVD-QA,MSRR代表MSRVTT-Ret

MCM旨在通過將視頻QA集成到預訓練中來彌合預訓練和下游任務之間的差距,增強模型對視頻和句子主題的關注,以更好地提取多模式特徵。

我們使用經典的MLM、VTM和VTC任務來預訓練模型作爲基線。由於MVM會導致視頻內容損壞,與其他任務發生衝突,在我們最初嘗試將MVM包括在預訓練中時,我們觀察到性能下降,如表7所示。因此,我們決定不使用MVM進行預訓練。爲了證實MCM的魯棒性,我們還在使用MVM的基礎上添加了MCM進行預訓練。結果表明,MCM仍然顯著提高了模型的性能。與用基線預訓練的模型相比,MCM通過縮小預訓練和下游任務之間的任務差距,顯着提高了模型在視頻QA任務上的性能。MCM對多模態特徵對齊的促進提高了模型的檢索任務性能。如表7所示,用MCM預訓練的模型在視頻QA和檢索任務中都優於基線,證明了其有效性。

五、未來工作

1、在Audio上進行探索,引入音頻信息提升性能。

2、進一步降低模型中的計算量最大的VIT的FLOPs與顯存佔用。

3、優化蒸餾模型模型,保證性能不損失的情況下降低VIT的FLOPs與顯存佔用。

● 論文標題:

MuLTI: Efficient Video-and-Language Understanding

 論文作者:

劉波、陳雲闊、程孟力、徐家琪、施興

 論文PDF鏈接:

https://arxiv.org/abs/2303.05707

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章