論文瀏覽(4) STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition

原創

清欢守护者

2020-06-13 21:00

文章目錄

0. 前言

相關資料：
- arxiv
- github：可能等不到開源啦
- 論文解讀
論文基本信息
- 領域：行爲識別
- 作者單位：西安交大&騰訊
- 發表時間：2020.3

1. 要解決什麼問題

行爲識別模型要解決的就是對空間信息建模（temporal modeling）的問題……
還是那些老問題：
- 雙流法耗時、佔用硬盤。
- 3D卷積計算量太大，2D卷積不能很好的對temporal建模。
現在主要都是在模型準確率與模型大小之間做權衡。

2. 用了什麼方法

提出了Spatio-Temporal Hybrid（STH）block，用於提到普通的卷積操作。
- STH Conv可以同時提取時間與空間信息。
2D/3D/(2+1)D/STH 的結構比較
- 這圖比較抽象，感覺作者是抽象派畫家。
- 畢竟是抽象畫，所以可能理解不對，我猜這圖的意思是介紹2D-Conv Block/3D-Conv Block/(2+1)D-Conv Block/STH Block 的基本結構。
  - 2D-Conv Block：先1*1*1卷積，再1*3*3卷積，最後1*1*1卷積。
  - 3D-Conv Block：先1*1*1卷積,再3*3*3卷積，最後1*1*1卷積。
  - (2+1)D-Conv Block：先1*1*1卷積,再1*3*3卷積，接着3*1*1卷積，最後1*1*1卷積。
  - STH Block：先1*1*1卷積，再同時進行1*3*3/3*1*1卷積，最後1*1*1卷積。
- 所謂的 Temporal Convolution、Spatial Convolution 在本圖中有說明。
  - 輸入特徵圖尺寸一般爲 N, T, C, H, W
  - 所謂Temporal Convolution就是在T通道上進行特徵融合（T通道卷積核尺寸爲3，H, W通道卷積核尺寸爲1）
  - 所謂Spatial Convolution就是對H, W通道進行特徵融合（H, W通道卷積核尺寸爲3，T通道卷積核尺寸爲1）
STH結構介紹
- 圖中 H, W 合併爲一個維度。
- Spatio-Temporal Hybrid Convolution，翻譯成中文應該是時空混合卷積。
- 也就是說，在一個STH block中，會將一個普通的卷積轉換爲若干個Temporal/Spatial Convolution，如下圖中，一次普通卷積按照C通道分爲4部分，分別進行Temporal/Spatial卷積操作。
STH的實現細節
- 上圖中給出的STH結構，就是下圖的(a)結構。
如何融合時間、空間特徵：
- 普通直接按位加，也可以搞個注意力網絡啥的。
STH的計算效率
- 從FLOPs上看，STH比普通的Spatial Convolution要少一些。
STH網絡