【視頻理解論文】——Grouped Spatial-Temporal Aggregation for Efficient Action Recognition（ICCV2019）

原創

Amazingren

2020-02-22 17:20

一、個人直觀解讀：

文章動機：就是爲了對基於3DCNN的視頻行爲識別中的參數進行控制，同時想要達到3DCNN的效果
原文的描述就是一句話“reduce the complexity by decoupling the spatial and temporal filters”
採取的方式：還是借鑑了TSN，TRN，這一類的利用2DCNN的網絡結構，然後再次基礎上拓展了P3D的工作，如下圖所示也就是在我用紅框圈出來的地方做文章的。
其他：主要借鑑了分組卷積的思路，重新設計了上圖中紅框的部分，變成了兩個分支，一個稱之爲Temoral conv用3DCNN來實現時序建模，另外一個是Spatial conv繼續用2DCNN來進行空間建模。
嗯，以上基本就是這篇文章的整體思路了。並不難。

二、Introduction中有價值的點

1.是沿着channel dimension進行時-空分解的
2.是受到group convolution的啓發的
3.本方法之所以有效的動機或者假設：對於輸入或者中間的一些feature map, 推測其中一些channel 是對空間信息更敏感的或者說更相關的，另一方面，其中還有一些就是對時序信息更相關的了，也可以說成是motion features
4.之前的一些方法呢，spetial 和temporal features 是被混在一起進行處理的，together cross channels，也就是整個channels是同時包含時空信息的，那麼可想而知直接對所有的channel進行同樣的操作那麼顯然不能獲得最優解並且並不是最高效的。
5.對於分組卷積的解讀：之前類似於Res3D什麼的也有，但是他們都是直接的進行group convolution操作，對得到的兩組進行同樣的操作，可以理解爲分成了symmetric group，這樣的話就還是沒有什麼長進。所以這篇文章其實就是我還是這麼分組，但是分組之後呢，我就給每個group進行不同的操作，也就是沿着channels維度分開，然後以非堆成的處理方式分別進行處理。

CUDA_VISIBLE_DICES = 4, 5, 6, 7
python main.py --root_path /home/guanls/dataset/ --dataset somethingv1 --checkpoint_dir /home/renb/PycharmProjects/GST-video/checkpoints --type GST --arch resnet50 --num_segments 8 --beta 2 --alpha 4

python main.py --root_path /data/Datasets/renb/ --dataset somethingv1 --checkpoint_dir /home/renb/PycharmProjects/GST-video/checkpoints --type GST --arch resnet50 --num_segments 8 --beta 2 --alpha 4

CUDA_VISIBLE_DICES = 4, 5, 6, 7
python main.py something-v1 RGB --arch BNInception
–num_segments 8 --consensus_type avg
–batch-size 16 --iter_size 2 --dropout 0.5
–lr 0.01 --warmup 10 --epochs 60 --eval-freq 5
–gd 20 --run_iter 1 -j 16 --npb --gsm

Amazingren

發佈了146 篇原創文章 · 獲贊 52 · 訪問量 13萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【視頻理解論文】——Grouped Spatial-Temporal Aggregation for Efficient Action Recognition（ICCV2019）

一、個人直觀解讀：

二、Introduction中有價值的點

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

Nginx R31 doc-13-Limiting Access to Proxied HTTP Resources 訪問限流

中外程序員到底有啥區別？

Python數據分析與挖掘實戰（5章）

python包：pandas

C++文件/流

一、什麼是Docker

二、Docker 組件

揹包九講一 01揹包

今天！通義靈碼在北京、成都、杭州三城開講啦

【TeXstudio+pkuthss模板】出現引用錯誤的解決方法：I found no \citation commands—while reading file xx.aux

【C++基礎】——指針，引用，指針與引用的簡單區別

Python慢刷《劍指Offer》

【行爲識別綜述準備】

Python使用過程中的一些Tips（用於自己學習的覆盤）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結