論文瀏覽(3) TEA: Temporal Excitation and Aggregation for Action Recognition

原創

清欢守护者

2020-06-13 21:00

文章目錄

0. 前言

TEA: Temporal Excitation and Aggregation for Action Recognition
相關資料：
- arxiv
- github：還沒發佈
- 論文解讀
論文基本信息
- 領域：行爲識別
- 作者單位：南京大學&騰訊
- 發表時間：2020.4

1. 要解決什麼問題

行爲識別的的重點是對空間信息建模（Temporal Modeling），一般來說要考慮下面兩個維度：
- short-range motions：即相鄰幀之間的信息
- long-range aggregations：長期特徵融合
目前的方法：
- short-range motions
  - 主要通過提取光流，再講光流信息通過CNN處理，總體結構是two-stream的方法。
  - 要使用光流，顯然就做不到實時處理了，而且也需要較多空間存儲信息。
  - 而且光流和RGB是分開處理的，特徵融合只是最後幾步進行。
- long-range aggregation
  - 第一類方法：對單幀數據通過2D CNN提取特徵，然後對多幀的特徵圖pooling操作，融合結果。
    - 這種方法實現簡單，效果不好。
  - 第二類方法：使用 3D/(2+1)D 卷積同時處理若干幀數據。
    - 一般會使用若干CNN基本結構疊加從而提取特徵，但疊加多了訓練困難。

2. 用了什麼方法

提出了Temporal Excitation and Aggregation(TEA) block
- TEA block 又可以分爲 motion excitation module(ME) 和 multiple temporal aggregation module (MTA)，分別處理 short-range motions 和 long-range aggregations 的問題。
本論文提出的，基於TEA block的網絡結構如下
- 本結構全部使用了2D CNN，分別對每一幀進行處理，最後做了一個平均。
Motion Excitation Module（ME）
- 設計目標是處理 short-range motions，不恰當地打個比方，就是比較相鄰兩幀的不同之處。
- 與 two-steam 不同（two-stream 方法是處理光流，即相信兩幀像素級別的變化），ME的是處理相鄰幀feature-level的變化。
- 設計ME的靈感在於：
  - 特徵圖中不同的channel提取了不同的特徵。
  - 換句話說，部分channel存儲靜態信息，部分channel提取動態信息。
- 模塊基本流程：
  - 輸入特徵圖 N, T, C, H, W
  - 第一步：通過2D卷積降維，得到特徵圖 N, T/r, C, H, W
  - 第二步：獲取 feature-level 的motion representations，得到的特徵圖尺寸不變。
    - 通過t與(t+1)層的特徵，通過2d conv以及按位減法獲取新的特徵。
    - 我猜是遍歷特徵圖的T緯度得到結果，然後concat。
  - 第三步：通過pool將H, W變爲 1, 1，之後再進行卷積（將T channel升維，與第一步輸入特徵尺寸相同）、Sigmoid操作。得到特徵圖 H, T, C, 1, 1
  - 第四步：其中操作就是按位乘法。所謂的 excite 應該就是這裏的按位乘法吧…
Multiple Temporal Aggregation(MTA) Module
- 設計目標是處理 long-range motions，ME處理臨近幀，那MTA就是處理距離遠的幀。
- 設計靈感來源於Res2Net，即時空特徵以及對應的卷積層都以分組操作。這種結構不會增加參數與計算量。
- 大概流程就是先分組，然後再分別進行卷積操作。
通過ME與MTA替代普通的ResNet中的bottlenet block。