0. 前言
- TEA: Temporal Excitation and Aggregation for Action Recognition
- 相關資料:
- 論文基本信息
- 領域:行爲識別
- 作者單位:南京大學&騰訊
- 發表時間:2020.4
1. 要解決什麼問題
- 行爲識別的的重點是對空間信息建模(Temporal Modeling),一般來說要考慮下面兩個維度:
- short-range motions:即相鄰幀之間的信息
- long-range aggregations:長期特徵融合
- 目前的方法:
- short-range motions
- 主要通過提取光流,再講光流信息通過CNN處理,總體結構是two-stream的方法。
- 要使用光流,顯然就做不到實時處理了,而且也需要較多空間存儲信息。
- 而且光流和RGB是分開處理的,特徵融合只是最後幾步進行。
- long-range aggregation
- 第一類方法:對單幀數據通過2D CNN提取特徵,然後對多幀的特徵圖pooling操作,融合結果。
- 這種方法實現簡單,效果不好。
- 第二類方法:使用 3D/(2+1)D 卷積同時處理若干幀數據。
- 一般會使用若干CNN基本結構疊加從而提取特徵,但疊加多了訓練困難。
- 第一類方法:對單幀數據通過2D CNN提取特徵,然後對多幀的特徵圖pooling操作,融合結果。
- short-range motions
2. 用了什麼方法
- 提出了Temporal Excitation and Aggregation(TEA) block
- TEA block 又可以分爲 motion excitation module(ME) 和 multiple temporal aggregation module (MTA),分別處理 short-range motions 和 long-range aggregations 的問題。
- 本論文提出的,基於TEA block的網絡結構如下
- 本結構全部使用了2D CNN,分別對每一幀進行處理,最後做了一個平均。
- Motion Excitation Module(ME)
- 設計目標是處理 short-range motions,不恰當地打個比方,就是比較相鄰兩幀的不同之處。
- 與 two-steam 不同(two-stream 方法是處理光流,即相信兩幀像素級別的變化),ME的是處理相鄰幀feature-level的變化。
- 設計ME的靈感在於:
- 特徵圖中不同的channel提取了不同的特徵。
- 換句話說,部分channel存儲靜態信息,部分channel提取動態信息。
- 模塊基本流程:
- 輸入特徵圖
N, T, C, H, W
- 第一步:通過2D卷積降維,得到特徵圖
N, T/r, C, H, W
- 第二步:獲取 feature-level 的motion representations,得到的特徵圖尺寸不變。
- 通過t與(t+1)層的特徵,通過2d conv以及按位減法獲取新的特徵。
- 我猜是遍歷特徵圖的
T
緯度得到結果,然後concat。
- 第三步:通過pool將
H, W
變爲1, 1
,之後再進行卷積(將T channel升維,與第一步輸入特徵尺寸相同)、Sigmoid操作。得到特徵圖H, T, C, 1, 1
- 第四步:其中操作就是按位乘法。所謂的 excite 應該就是這裏的按位乘法吧…
- 輸入特徵圖
- Multiple Temporal Aggregation(MTA) Module
- 設計目標是處理 long-range motions,ME處理臨近幀,那MTA就是處理距離遠的幀。
- 設計靈感來源於Res2Net,即時空特徵以及對應的卷積層都以分組操作。這種結構不會增加參數與計算量。
- 大概流程就是先分組,然後再分別進行卷積操作。
- 通過ME與MTA替代普通的ResNet中的bottlenet block。
3. 效果如何
- 我就喜歡這種放上FLOPs的結果。
4. 還存在什麼問題
-
想嘗試下在MobileNet上的效果。
-
跪求開源。。