0. 前言
1. 要解決什麼問題
- 行爲識別模型要解決的就是對空間信息建模(temporal modeling)的問題……
- 還是那些老問題:
- 雙流法耗時、佔用硬盤。
- 3D卷積計算量太大,2D卷積不能很好的對temporal建模。
- 現在主要都是在模型準確率與模型大小之間做權衡。
2. 用了什麼方法
- 提出了Spatio-Temporal Hybrid(STH)block,用於提到普通的卷積操作。
- STH Conv可以同時提取時間與空間信息。
- 2D/3D/(2+1)D/STH 的結構比較
- 這圖比較抽象,感覺作者是抽象派畫家。
- 畢竟是抽象畫,所以可能理解不對,我猜這圖的意思是介紹2D-Conv Block/3D-Conv Block/(2+1)D-Conv Block/STH Block 的基本結構。
- 2D-Conv Block:先
1*1*1
卷積,再1*3*3
卷積,最後1*1*1
卷積。 - 3D-Conv Block:先
1*1*1
卷積,再3*3*3
卷積,最後1*1*1
卷積。 - (2+1)D-Conv Block:先
1*1*1
卷積,再1*3*3
卷積,接着3*1*1
卷積,最後1*1*1
卷積。 - STH Block:先
1*1*1
卷積,再同時進行1*3*3
/3*1*1
卷積,最後1*1*1
卷積。
- 2D-Conv Block:先
- 所謂的 Temporal Convolution、Spatial Convolution 在本圖中有說明。
- 輸入特徵圖尺寸一般爲
N, T, C, H, W
- 所謂Temporal Convolution就是在
T
通道上進行特徵融合(T
通道卷積核尺寸爲3,H, W
通道卷積核尺寸爲1) - 所謂Spatial Convolution就是對
H, W
通道進行特徵融合(H, W
通道卷積核尺寸爲3,T
通道卷積核尺寸爲1)
- 輸入特徵圖尺寸一般爲
- STH結構介紹
- 圖中 H, W 合併爲一個維度。
- Spatio-Temporal Hybrid Convolution,翻譯成中文應該是 時空混合卷積。
- 也就是說,在一個STH block中,會將一個普通的卷積轉換爲若干個Temporal/Spatial Convolution,如下圖中,一次普通卷積按照
C
通道分爲4部分,分別進行Temporal/Spatial卷積操作。
- STH的實現細節
- 上圖中給出的STH結構,就是下圖的(a)結構。
- 如何融合時間、空間特徵:
- 普通直接按位加,也可以搞個注意力網絡啥的。
- STH的計算效率
- 從FLOPs上看,STH比普通的Spatial Convolution要少一些。
- STH網絡
3. 效果如何
- 從模型準確率看,STH與其他SOTA模型差距不大。
- 這裏比較了幾個模型在1080ti上的執行效率,感覺對比TSM也沒有太大優勢。
4. 還存在什麼問題
-
論文本身的idea挺有意思,但感覺效果好像並沒有什麼特別之處。