0. 前言
1. 要解決什麼問題
- 深度學習領域,視頻相關研究比圖像相關研究少/慢一些。
- 視頻相比於圖像,其主要區別在於,除了要考慮空間特徵,還需要考慮時間特徵。
- 在行爲識別領域,要解決的主要問題就是 高效提取視頻的時空特徵,這也就是本文的目標。
- 現在提取視頻特徵的主流方法是使用3D卷積,但3D卷積存在針對性差、計算量高的缺陷。
- 對3D卷積的優化主要集中在兩個研究方向:
- 基於2D卷積的時間特徵提取模塊。
- 設計專門用於時間特徵提取的模塊(而不是向3D卷積那麼粗糙的方法)。
2. 用了什麼方法
- 提出了一種新的時間自適應結構(temporal adaptive module,TAM)。
- 這種模塊的關鍵在於,對於不同的視頻有不同的處理,adaptive temporal kernels。
- 在看了下面的網絡結構後發現,在TAM模塊內,卷積核會改變,特徵圖也做了處理。
- Attention真是哪裏都能用啊……
- TAM模塊結構示意圖如下(這張圖TAM並不直觀,還是下面一張圖顯示的TAM直觀):
- TANet結構示意圖如下:
- local branch 用於提取短期信息,global branch用於提取長期信息。
3. 效果如何
- 在 Kinetics-400 上達到SOTA
- 在Something-Something上也到SOTA
4. 還存在什麼問題
-
說是在同樣FLOPs下性能更好,但測試基礎是ResNet,等代碼開源了之後想嘗試下在MobileNet等網絡上是否有效果,遷移到移動端有沒有可能實現。
-
實現細節等待源碼。