TEINet: Towards an Efficient Architecture for Video Recognition(AAAI2020)

原創

2020-07-06 20:49

AAAI2020 南京大學+騰訊優圖實驗室

1 摘要

在視頻動作識別的架構設計中，效率是一個重要的問題。3D CNNs在視頻動作識別方面取得了顯著的進展。然而，與二維卷積相比，三維卷積往往引入大量的參數，導致計算量大。爲了解決這個問題，我們提出了一個有效的時序模塊，稱爲Temporal Enhancement-and-Interaction（TEI模塊），它可以插入到現有的2D CNNs中。TEI模塊通過分離通道相關和時間交互的建模，提出了一種不同的學習時間特徵的範式。首先，它包含一個運動增強模塊（MEM），該模塊在抑制無關信息（例如背景）的同時增強與運動相關的特徵。
然後，介紹了一個時序交互模塊（TIM），它以通道方式補充時序上下文信息。該兩階段建模方案不僅能夠靈活有效地捕捉時間結構，而且能夠有效地進行模型推理。我們進行了大量的實驗來驗證TEINet在Something-Something V1&V2, Kinetics, UCF101 and HMDB51幾個基準上的有效性。TEINet可以在這些數據集上達到很好的識別精度，同時保持很高的效率。

2 相關背景

視頻處理中，數據量太大是當前這一領域發展的一大主要瓶頸。從圖像領域目標識別遷移過來的2DCNN在早期工作中主要是將視頻當成一幀一幀的圖片來做，缺乏時序信息的處理，因爲準確率較低。

隨後結合了時序信息的3DCNN成爲另一主流方案，準確率提升了，但是參數量也上去了，訓練代價很大。爲此，很多工作都集中在對這兩張方案的融合，即構造一種位於2D和3D之間的架構。代表工作有我之前組會介紹過的P3D(僞3D)、R（2+1）D等。

TEINet是這一方向新的思路和方案，由南京大學和騰訊優圖實驗室聯合完成。

3 方案原理

TEINet也是設計2D Module的工作，包括MEM和TIM兩個部分。MEM利用動作信息實現注意力機制，加強重要特徵；TIM對時序信息建模。將兩個模塊先後拼接形成TEINet，在各個數據集上都得到了不錯的效果。

3.1 Motion Enhanced Module (MEM)
MEM目的在於通過使用相鄰幀特徵的差異來在通道上增強運動相關的特徵。

輸入序列：
，

首先通過全局平均池化（GAP），聚合輸入的空間特徵，卷積輸出的結果爲：

再通過一層卷積，獲得channel間的權重，且輸出通道爲C/r，r在實驗中設置爲8。

爲了使用相鄰幀特徵的差異，設計了兩路卷積（圖中的藍色和黃色），分別對應輸入的前後相鄰兩幀：，分別通過各自卷積之後的結果進行相減得到差異信息，即爲運動信息。

接着，再通過一層卷積（圖中的conv3）,將通道數從C/r變回到C，目的是爲了保持和輸入Xt通道一致。
最後再通過sigmoid層，得到0~1範圍的激活，即對應的通道權重：

將與原來的特徵進行通道點乘，獲得運動顯著（motion-salient）的特徵。

3.2 Temporal Interaction Module (TIM)
通過MEM獲得了運動顯著的特徵，但是模型仍然不能捕捉時序信息，因而設計了TIM模塊，希望以較低的計算成本獲取時序文本信息。

對於輸入U=
首先將維度從
變爲

然後對每一個通道單獨進行通道級卷積操作來學習每個通道的時序變化。

V是通道級卷積的卷積核，與3DCNN相比，計算量大幅降低。V的大小設計爲，使得特徵只和相鄰時間的特徵相關，但是時序接收場會隨着特徵圖的越來越深而逐步增大。

卷積之後，再將Y的維度變爲
3DCNN的計算量爲：
TIM的計算量爲：
此外，作者在論文中提到，TIM可學習，可以看做TSM（看成是[0,1,0][1,0,0][0,0,1]的卷積）的泛化版（TSM：Temporal shift module for efficient video understanding. CoRR 2018）