論文瀏覽(1) TAM: Temporal Adaptive Module for Video Recognition


0. 前言

  • 相關資料:
    • arxiv
    • github:等論文接收了就開源
    • 論文解讀
  • 論文基本信息
    • 領域:行爲識別
    • 作者單位:南京大學&商湯研究院
    • 發表時間:2020.5

1. 要解決什麼問題

  • 深度學習領域,視頻相關研究比圖像相關研究少/慢一些。
    • 視頻相比於圖像,其主要區別在於,除了要考慮空間特徵,還需要考慮時間特徵。
  • 在行爲識別領域,要解決的主要問題就是 高效提取視頻的時空特徵,這也就是本文的目標。
    • 現在提取視頻特徵的主流方法是使用3D卷積,但3D卷積存在針對性差、計算量高的缺陷。
    • 對3D卷積的優化主要集中在兩個研究方向:
      • 基於2D卷積的時間特徵提取模塊。
      • 設計專門用於時間特徵提取的模塊(而不是向3D卷積那麼粗糙的方法)。

2. 用了什麼方法

  • 提出了一種新的時間自適應結構(temporal adaptive module,TAM)。
    • 這種模塊的關鍵在於,對於不同的視頻有不同的處理,adaptive temporal kernels。
    • 在看了下面的網絡結構後發現,在TAM模塊內,卷積核會改變,特徵圖也做了處理。
    • Attention真是哪裏都能用啊……
  • TAM模塊結構示意圖如下(這張圖TAM並不直觀,還是下面一張圖顯示的TAM直觀):
    • image_1e9n5m4931vb018d41m4q188hnaj9.png-224.9kB
  • TANet結構示意圖如下:
    • local branch 用於提取短期信息,global branch用於提取長期信息。
    • image_1e9n5qjr21dmr1c6714ef1e011h7om.png-227.4kB

3. 效果如何

  • 在 Kinetics-400 上達到SOTA
    image_1e9mpo2femtup5uln01tj415ab9.png-190.4kB
  • 在Something-Something上也到SOTA
    image_1e9mppv6364o15dm7nohu0n85m.png-236.4kB

4. 還存在什麼問題

  • 說是在同樣FLOPs下性能更好,但測試基礎是ResNet,等代碼開源了之後想嘗試下在MobileNet等網絡上是否有效果,遷移到移動端有沒有可能實現。

  • 實現細節等待源碼。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章