TEINet: Towards an Efficient Architecture for Video Recognition(AAAI2020)

AAAI2020 南京大學+騰訊優圖實驗室

1 摘要

視頻動作識別的架構設計中,效率是一個重要的問題。3D CNNs在視頻動作識別方面取得了顯著的進展。然而,與二維卷積相比,三維卷積往往引入大量的參數,導致計算量大。爲了解決這個問題,我們提出了一個有效的時序模塊,稱爲Temporal Enhancement-and-Interaction(TEI模塊),它可以插入到現有的2D CNNs中。TEI模塊通過分離通道相關和時間交互的建模,提出了一種不同的學習時間特徵的範式。首先,它包含一個運動增強模塊(MEM),該模塊在抑制無關信息(例如背景)的同時增強與運動相關的特徵。
然後,介紹了一個時序交互模塊(TIM),它以通道方式補充時序上下文信息。該兩階段建模方案不僅能夠靈活有效地捕捉時間結構,而且能夠有效地進行模型推理。我們進行了大量的實驗來驗證TEINet在Something-Something V1&V2, Kinetics, UCF101 and HMDB51幾個基準上的有效性。TEINet可以在這些數據集上達到很好的識別精度,同時保持很高的效率。

2 相關背景

視頻處理中,數據量太大是當前這一領域發展的一大主要瓶頸。從圖像領域目標識別遷移過來的2DCNN在早期工作中主要是將視頻當成一幀一幀的圖片來做,缺乏時序信息的處理,因爲準確率較低。

隨後結合了時序信息的3DCNN成爲另一主流方案,準確率提升了,但是參數量也上去了,訓練代價很大。爲此,很多工作都集中在對這兩張方案的融合,即構造一種位於2D和3D之間的架構。代表工作有我之前組會介紹過的P3D(僞3D)、R(2+1)D等。

TEINet是這一方向新的思路和方案,由南京大學和騰訊優圖實驗室聯合完成。

3 方案原理

TEINet也是設計2D Module的工作,包括MEM和TIM兩個部分。MEM利用動作信息實現注意力機制,加強重要特徵;TIM對時序信息建模。將兩個模塊先後拼接形成TEINet,在各個數據集上都得到了不錯的效果。
在這裏插入圖片描述
在這裏插入圖片描述
3.1 Motion Enhanced Module (MEM)
MEM目的在於通過使用相鄰幀特徵的差異來在通道上增強運動相關的特徵。
在這裏插入圖片描述
輸入序列:
在這裏插入圖片描述
在這裏插入圖片描述
首先通過全局平均池化(GAP),聚合輸入的空間特徵,卷積輸出的結果爲:
在這裏插入圖片描述
再通過一層卷積,獲得channel間的權重,且輸出通道爲C/r,r在實驗中設置爲8。

爲了使用相鄰幀特徵的差異,設計了兩路卷積(圖中的藍色和黃色),分別對應輸入的前後相鄰兩幀:在這裏插入圖片描述,分別通過各自卷積之後的結果進行相減得到差異信息,即爲運動信息。
在這裏插入圖片描述
接着,再通過一層卷積(圖中的conv3),將通道數從C/r變回到C,目的是爲了保持和輸入Xt通道一致。
最後再通過sigmoid層,得到0~1範圍的激活,即對應的通道權重:
在這裏插入圖片描述
在這裏插入圖片描述與原來的特徵在這裏插入圖片描述進行通道點乘,獲得運動顯著(motion-salient)的特徵。
在這裏插入圖片描述
3.2 Temporal Interaction Module (TIM)
通過MEM獲得了運動顯著的特徵,但是模型仍然不能捕捉時序信息,因而設計了TIM模塊,希望以較低的計算成本獲取時序文本信息
在這裏插入圖片描述
對於輸入U=在這裏插入圖片描述
首先將維度從在這裏插入圖片描述
變爲
在這裏插入圖片描述
然後對每一個通道單獨進行通道級卷積操作來學習每個通道的時序變化。
在這裏插入圖片描述
V是通道級卷積的卷積核,與3DCNN相比,計算量大幅降低。V的大小設計爲在這裏插入圖片描述,使得特徵只和相鄰時間的特徵相關,但是時序接收場會隨着特徵圖的越來越深而逐步增大。

卷積之後,再將Y的維度變爲在這裏插入圖片描述
3DCNN的計算量爲:在這裏插入圖片描述
TIM的計算量爲:在這裏插入圖片描述
此外,作者在論文中提到,TIM可學習,可以看做TSM(看成是[0,1,0][1,0,0][0,0,1]的卷積)的泛化版(TSM:Temporal shift module for efficient video understanding. CoRR 2018)

4 實驗效果
4.1 Something-Something V1數據集

在這裏插入圖片描述
4.2 Something-Something V2數據集
在這裏插入圖片描述
4.3 Kinetics-400數據集
在這裏插入圖片描述
4.4 UCF101 and HMDB51數據集
在這裏插入圖片描述

5 結論

作者設計了兩個模塊分別捕捉運動信息和時序信息,都是2D模塊的巧妙設計,可以直接插入現有的2DCNN結構。同時因爲是2D,所以可以使用ImageNet的預訓練模型,值得後期借鑑。對視頻研究的基本框架仍有改進空間。
也歡迎感興趣的朋友關注公。衆號StrongerTang更多交流討論,相互學習!

推薦閱讀:
P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV
G-TAD: Sub-Graph Localization for Temporal Action Detection
ActivityNet數據集簡介及下載分享(百度網盤)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章