【視頻理解論文】——Grouped Spatial-Temporal Aggregation for Efficient Action Recognition(ICCV2019)

一、個人直觀解讀:

  • 文章動機:就是爲了對基於3DCNN的視頻行爲識別中的參數進行控制,同時想要達到3DCNN的效果
    原文的描述就是一句話“reduce the complexity by decoupling the spatial and temporal filters
  • 採取的方式:還是借鑑了TSN,TRN,這一類的利用2DCNN的網絡結構,然後再次基礎上拓展了P3D的工作,如下圖所示也就是在我用紅框圈出來的地方做文章的。
    在這裏插入圖片描述
  • 其他:主要借鑑了分組卷積的思路,重新設計了上圖中紅框的部分,變成了兩個分支,一個稱之爲Temoral conv用3DCNN來實現時序建模,另外一個是Spatial conv繼續用2DCNN來進行空間建模。
  • 嗯,以上基本就是這篇文章的整體思路了。並不難。

二、Introduction中有價值的點

  • 1.是沿着channel dimension進行時-空分解的
  • 2.是受到group convolution的啓發的
  • 3.本方法之所以有效的動機或者假設:對於 輸入或者中間的一些feature map, 推測其中一些channel 是對空間信息更敏感的或者說更相關的,另一方面,其中還有一些就是對時序信息更相關的了,也可以說成是motion features
  • 4.之前的一些方法呢,spetial 和temporal features 是被混在一起進行處理的,together cross channels,也就是整個channels是同時包含時空信息的,那麼可想而知直接對所有的channel進行同樣的操作那麼顯然不能獲得最優解並且並不是最高效的。
  • 5.對於分組卷積的解讀:之前類似於Res3D什麼的也有,但是他們都是直接的進行group convolution操作,對得到的兩組進行同樣的操作,可以理解爲分成了symmetric group,這樣的話就還是沒有什麼長進。所以這篇文章其實就是我還是這麼分組,但是分組之後呢,我就給每個group進行不同的操作,也就是沿着channels維度分開,然後以非堆成的處理方式分別進行處理。

在這裏插入圖片描述
CUDA_VISIBLE_DICES = 4, 5, 6, 7
python main.py --root_path /home/guanls/dataset/ --dataset somethingv1 --checkpoint_dir /home/renb/PycharmProjects/GST-video/checkpoints --type GST --arch resnet50 --num_segments 8 --beta 2 --alpha 4

python main.py --root_path /data/Datasets/renb/ --dataset somethingv1 --checkpoint_dir /home/renb/PycharmProjects/GST-video/checkpoints --type GST --arch resnet50 --num_segments 8 --beta 2 --alpha 4

CUDA_VISIBLE_DICES = 4, 5, 6, 7
python main.py something-v1 RGB --arch BNInception
–num_segments 8 --consensus_type avg
–batch-size 16 --iter_size 2 --dropout 0.5
–lr 0.01 --warmup 10 --epochs 60 --eval-freq 5
–gd 20 --run_iter 1 -j 16 --npb --gsm

發佈了146 篇原創文章 · 獲贊 52 · 訪問量 13萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章