論文瀏覽(3) TEA: Temporal Excitation and Aggregation for Action Recognition


0. 前言

  • TEA: Temporal Excitation and Aggregation for Action Recognition
  • 相關資料:
  • 論文基本信息
    • 領域:行爲識別
    • 作者單位:南京大學&騰訊
    • 發表時間:2020.4

1. 要解決什麼問題

  • 行爲識別的的重點是對空間信息建模(Temporal Modeling),一般來說要考慮下面兩個維度:
    • short-range motions:即相鄰幀之間的信息
    • long-range aggregations:長期特徵融合
  • 目前的方法:
    • short-range motions
      • 主要通過提取光流,再講光流信息通過CNN處理,總體結構是two-stream的方法。
      • 要使用光流,顯然就做不到實時處理了,而且也需要較多空間存儲信息。
      • 而且光流和RGB是分開處理的,特徵融合只是最後幾步進行。
    • long-range aggregation
      • 第一類方法:對單幀數據通過2D CNN提取特徵,然後對多幀的特徵圖pooling操作,融合結果。
        • 這種方法實現簡單,效果不好。
      • 第二類方法:使用 3D/(2+1)D 卷積同時處理若干幀數據。
        • 一般會使用若干CNN基本結構疊加從而提取特徵,但疊加多了訓練困難。

2. 用了什麼方法

  • 提出了Temporal Excitation and Aggregation(TEA) block
    • TEA block 又可以分爲 motion excitation module(ME) 和 multiple temporal aggregation module (MTA),分別處理 short-range motions 和 long-range aggregations 的問題。
  • 本論文提出的,基於TEA block的網絡結構如下
    • 本結構全部使用了2D CNN,分別對每一幀進行處理,最後做了一個平均。
    • image_1e9sbhq88var2hg18ot1q317da9.png-227.6kB
  • Motion Excitation Module(ME)
    • 設計目標是處理 short-range motions,不恰當地打個比方,就是比較相鄰兩幀的不同之處。
    • 與 two-steam 不同(two-stream 方法是處理光流,即相信兩幀像素級別的變化),ME的是處理相鄰幀feature-level的變化。
    • 設計ME的靈感在於:
      • 特徵圖中不同的channel提取了不同的特徵。
      • 換句話說,部分channel存儲靜態信息,部分channel提取動態信息。
    • 模塊基本流程:
      • 輸入特徵圖 N, T, C, H, W
      • 第一步:通過2D卷積降維,得到特徵圖 N, T/r, C, H, W
      • 第二步:獲取 feature-level 的motion representations,得到的特徵圖尺寸不變。
        • 通過t與(t+1)層的特徵,通過2d conv以及按位減法獲取新的特徵。
        • 我猜是遍歷特徵圖的T緯度得到結果,然後concat。
      • 第三步:通過pool將H, W變爲 1, 1,之後再進行卷積(將T channel升維,與第一步輸入特徵尺寸相同)、Sigmoid操作。得到特徵圖 H, T, C, 1, 1
      • 第四步:其中操作就是按位乘法。所謂的 excite 應該就是這裏的按位乘法吧…
        • image_1e9se5snq184qi0ns0g1o93reu13.png-9.8kB
    • image_1e9sc76b860qug91r3uuh31548m.png-79.5kB
  • Multiple Temporal Aggregation(MTA) Module
    • 設計目標是處理 long-range motions,ME處理臨近幀,那MTA就是處理距離遠的幀。
    • 設計靈感來源於Res2Net,即時空特徵以及對應的卷積層都以分組操作。這種結構不會增加參數與計算量。
    • 大概流程就是先分組,然後再分別進行卷積操作。
    • image_1e9seqisq1folnj9utfnso2u51t.png-29.3kB
    • image_1e9seaebu1lf1vg3fseq7522g1g.png-77.4kB
  • 通過ME與MTA替代普通的ResNet中的bottlenet block。
    • image_1e9ses6cet8717ug1sfv9vn1u5l2a.png-74.8kB

3. 效果如何

  • 我就喜歡這種放上FLOPs的結果。
    image_1e9sfhhojhuluki1aju7iarlk2n.png-329.9kB
    image_1e9sfid379931ciq13qh1quuupv34.png-275.8kB

4. 還存在什麼問題

  • 想嘗試下在MobileNet上的效果。

  • 跪求開源。。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章