論文瀏覽(12) SmallBigNet: Integrating Core and Contextual Views for Video Classification

原創

清欢守护者

2020-07-07 14:47

文章目錄

0. 前言

相關資料：
- arxiv
- github
- 論文解讀
論文基本信息
- 領域：視頻分類
- 作者單位：商湯&中國科學院深圳先進技術研究院
- 發表時間：2020.6
- CVPR 2020

1. 要解決什麼問題

直接使用3x3x3的3D卷積可能會導致參數過多、運算量較大、難以訓練等諸多問題，所以一般會分解爲 1x3x3 的 spatial convolution 以及 3x1x1 的 temporal convolution。
使用3D卷積提取視頻特徵的時候，spatio-temporal contexts 很可能處於一個Limitted view（受限的範圍）內。
- 下圖（High jump動作）就是 temporal convolution 常見的一種 Limited view 情況。
- 大概意思是在t-1或t+1時同一個位置的信息可能會妨礙對t時刻本身動作的分類。

2. 用了什麼方法

提出了SmallBig Unit
- 基本思想就是在SmallBig Unit中分類Small/Big兩路，結構如下圖所示。
- Small：普通的1x1x1卷積
- Big：3x3x3 max pooling + 1x1x1卷積。
  - 3D max pooling 可以用來選擇最合適的上下文信息，從而解決開頭提到的問題……
- 上面兩條分支的 1x1x1 卷積是共享參數的。
從公式角度理解SmallBig Unit。
- 普通的Temporal Convolution的形式：
  - x代表輸入，y代表輸出，t代表時刻，(h, w)代表在特徵圖中的位置， $\Theta$ 表示卷積操作的參數。
- SmallBig Unit
  - small view 就是普通的1x1x1卷積，big view是先3x3x3 max pooling + 1x1x1 卷積。
  - 兩個 1x1x1 卷積是共享參數的。
SmallBig Block
- a是普通2D block，即在temporal dimension上沒有做什麼操作，對應卷積核都是1。
- b是普通3D block，在non-local中使用，將3x3x3轉換爲3x1x1 + 1x3x3，其他就是普通resnet block。
- c-e是帶有 SmallBig Unit 的Block。
  - e中的T一般就是輸入的幀的數量。
  - e中要這麼做的原因是，在通過前幾部卷積後，空間（spatial）上的感受野很大，所以時間上（temporal）也要同樣增加，就通過e中Tx1x1的結構來增加。
  - f在e的基礎上增加了一個small big block，說是把新增的這個當做是attention。
SmallBig-ResNet
SmallBig的功能與Non-local類似。

3. 效果如何

在Kinetics-400上做了一大堆實驗：
- 說明了smallbig提高了多少點，在那些stage上使用smallbig，smallbig中max pooling的尺寸，是否共享參數，在backbone爲resnet-23的時候甚至超過普通的backbone爲resnet-50的情況

4. 還存在什麼問題

代碼尚未開源，等待大佬。
看起來是用來提到Non-local的，對比了GFlops，但沒提inference time，需要自己再嘗試一下。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【Julia Deep Learning CV】第一篇 MNIST

2020-07-08 00:23:43

CV-梯度下降

GD θnext=θlast−ωf′(θi) \Large \theta_{next} = \theta_{last} - \omega f'(\theta_i) θnext=θlast−ωf′(θi) 直到 f′(θne

2020-07-07 20:06:56

CV-色彩空間

色彩三要素色相：基色明度：明暗純度：飽和其中明度和純度感官差異上有些區分不開，可以藉助如下定義純度：顏色中灰色含量的多少亮度：顏色中黑白佔比的多少因爲明亮和飽和的顏色都會對眼睛有明顯的刺激，反正我是分不太

2020-07-07 20:06:56

CNN卷積神經網絡結構遐思

殘缺的神經網絡卷積神經網絡，是神經網絡的子集，是殘缺的神經網絡。 [a00a01a02a10a11a12a20a21a22]⊙[b00b01b10b11]=[c00c01c10c11] \left[\begin{matrix}a

2020-07-07 20:06:56

CV-color

https://nbviewer.jupyter.org/github/forevaer/cv_note/blob/master/1/homework/homework_color.ipynb

2020-07-07 20:06:56

Infrared and visible image perceptive fusion through multi-level Gaussian curvature filtering image

圖像融合---簡單認識圖像融合 Image fusion - Simply recognize image fusion 概念圖像融合（Image Fusion）是指將多源信道所採集到的關於同一目標的圖像數據經過圖像處理和計算機

李伯爵的指间沙

2020-07-07 19:04:25

DeepStream結合OpenCV4實現視頻的分析和截圖（一）

目錄安裝環境 Deepstream-test4配置文件改寫調用OpenCV截圖存疑其他收穫前言本文實現基於test4，基於deepstream-app的更改和代碼更新見DeepStream結合OpenCV4實現視頻的分析和

2020-07-07 16:54:09

ResNet/ResNet-I3D/ResNet-I3D-SlowFast 源碼閱讀

文章目錄0. 前言1. ResNet50-2D2. ResNet-I3D3. ResNet-I3D-SlowFast 0. 前言目標：更好的理解2D/I3D/SlowFast模型。爲了實現MobileNet/Shuff

清欢守护者

2020-07-07 14:47:10

論文瀏覽(11) A Multigrid Method for Efficiently Training Video Models

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀論文基本信息領域：視頻理解訓練加速作者單位：FAIR&得克薩

清欢守护者

2020-07-07 14:47:10

論文瀏覽(10) Towards Real-Time Multi-Object Tracking

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀，翻譯論文基本信息領域：多目標跟蹤作者單位：清華&澳大利亞國立

清欢守护者

2020-07-07 14:47:10

論文瀏覽(9) A Simple Baseline for Multi-Object Tracking

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀論文基本信息領域：多目標跟蹤作者單位：華科&微軟亞洲研究院發

清欢守护者

2020-07-07 14:47:08

論文瀏覽(15) Online Action Detection

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github，這個是作者github repo，但沒寫自己是…… 論文解讀，推薦參考資料論

清欢守护者

2020-07-07 14:47:08

論文瀏覽(13) Resource Efficient 3D Convolutional Neural Networks

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀論文基本信息領域：行爲識別作者單位：慕尼黑工業大學&英特爾歐洲

清欢守护者

2020-07-07 14:47:08

論文瀏覽(8) Asynchronous Interaction Aggregation for Action Detection

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github：有webcam demo可以直接使用，但暫時沒有提供training代碼。論文解

清欢守护者

2020-07-07 14:47:08

論文瀏覽(14) STM: SpatioTemporal and Motion Encoding for Action Recognition

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀論文基本信息領域：行爲識別作者單位：浙大&商湯發表時間：20

清欢守护者

2020-07-07 14:47:07

24小時熱門文章

最新文章

最新評論文章