论文浏览(2) Temporal Pyramid Network for Action Recognition

原創

清欢守护者

2020-06-13 21:00

文章目录

0. 前言

相关资料：
论文基本信息
- 领域：行为识别
- 作者单位：港中文&商汤
- 发表时间：2020.4

1. 要解决什么问题

本文主要引入了一个视觉速率“visual tempo”（也可以翻译为节奏）的概念。
- 什么是 visual tempo：做动作的节奏/速率。如下图
  - intra class：在同一类型，不同样本中速率不同。
  - inter class：不同类型类型样本的速率不同。
  - 不同行为，tempo的变化程度不同：所有的剪羊毛样本都差不多速率，不同的“后空翻”速率差别很大。
- 如何理解：visual tempo可以未接维行为在时间尺度上特征，或者说行为的动态特征。
以前用于提取 visual tempo 的方法主要是通过不同帧率获取原始帧，构建 input-level frame pyramid。
- 基本流程就如SlowFast，不同速率的样本通过不同的backbone处理，然后做特征融合，最后用于行为识别。
- 这种方法太耗时，效率不够高。
- 由于这种方法需要预先设置帧率，所以有一些限制。
- 希望能有 feature-level的特征提取方法（感觉有点类似于检测里的FPN），既能提取visual tempo，又能节约性能。

2. 用了什么方法

提出了一个即插即用的模块 Temporal Pyramid Network
- 灵感来源：同一模型不同深度的网络都已经提取了不同tempo的特征。详细点说，由于视频数据的特征图一般尺寸为 BATCH_SIZE, T, C, H, W，那么不同的T就代表了不同的帧率。
- Collection of Hierarchical Features
  - 方法一：没有FPN，获取一个特征图，以特征图中的T通道作为基础，按照不同“帧率”选择BATCH_SIZE, C, H, W特征图。与下图展示不同。
  - 方法二：有FPN，根据不同层特征图拥有不同的通道T，作为不同帧率作为后续输入。
- Spatial Semantic Modulation：大概意思是，从backbone获取的不同深度的空间语义特征不一致（猜测就是C, T, H, W尺寸不一致，具体要看源码），通过卷积操作设置为相同尺寸。如下图中，这一层的结果的尺寸完全相同。
- Temporal Rate Modulation：就是获取不同帧率的特征图。这一步应该就是所谓的。
- Information Flow：特征融合
特征融合的方式

3. 效果如何

在Kinetics-400/Something-Something-V1 & V2/Epic-Kitchen三个数据集上能够稳步提升性能。截图不放了，反正都有提升就对了。
对于tempo变化较大的行为类别，性能提高效果较好。

4. 还存在什么问题

一看到Pyramid就知道，这类模型肯定不能用于算力不行的设备里了……

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【Julia Deep Learning CV】第一篇 MNIST

2020-07-08 00:23:43

CV-梯度下降

GD θnext=θlast−ωf′(θi) \Large \theta_{next} = \theta_{last} - \omega f'(\theta_i) θnext=θlast−ωf′(θi) 直到 f′(θne

2020-07-07 20:06:56

CV-色彩空间

色彩三要素色相：基色明度：明暗純度：飽和其中明度和純度感官差異上有些區分不開，可以藉助如下定義純度：顏色中灰色含量的多少亮度：顏色中黑白佔比的多少因爲明亮和飽和的顏色都會對眼睛有明顯的刺激，反正我是分不太

2020-07-07 20:06:56

CNN卷积神经网络结构遐思

殘缺的神經網絡卷積神經網絡，是神經網絡的子集，是殘缺的神經網絡。 [a00a01a02a10a11a12a20a21a22]⊙[b00b01b10b11]=[c00c01c10c11] \left[\begin{matrix}a

2020-07-07 20:06:56

CV-color

https://nbviewer.jupyter.org/github/forevaer/cv_note/blob/master/1/homework/homework_color.ipynb

2020-07-07 20:06:56

Infrared and visible image perceptive fusion through multi-level Gaussian curvature filtering image

圖像融合---簡單認識圖像融合 Image fusion - Simply recognize image fusion 概念圖像融合（Image Fusion）是指將多源信道所採集到的關於同一目標的圖像數據經過圖像處理和計算機

李伯爵的指间沙

2020-07-07 19:04:25

DeepStream结合OpenCV4实现视频的分析和截图（一）

目錄安裝環境 Deepstream-test4配置文件改寫調用OpenCV截圖存疑其他收穫前言本文實現基於test4，基於deepstream-app的更改和代碼更新見DeepStream結合OpenCV4實現視頻的分析和

2020-07-07 16:54:09

ResNet/ResNet-I3D/ResNet-I3D-SlowFast 源码阅读

文章目錄0. 前言1. ResNet50-2D2. ResNet-I3D3. ResNet-I3D-SlowFast 0. 前言目標：更好的理解2D/I3D/SlowFast模型。爲了實現MobileNet/Shuff

清欢守护者

2020-07-07 14:47:10

论文浏览(11) A Multigrid Method for Efficiently Training Video Models

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀論文基本信息領域：視頻理解訓練加速作者單位：FAIR&得克薩

清欢守护者

2020-07-07 14:47:10

论文浏览(10) Towards Real-Time Multi-Object Tracking

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀，翻譯論文基本信息領域：多目標跟蹤作者單位：清華&澳大利亞國立

清欢守护者

2020-07-07 14:47:10

论文浏览(9) A Simple Baseline for Multi-Object Tracking

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀論文基本信息領域：多目標跟蹤作者單位：華科&微軟亞洲研究院發

清欢守护者

2020-07-07 14:47:08

论文浏览(15) Online Action Detection

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github，這個是作者github repo，但沒寫自己是…… 論文解讀，推薦參考資料論

清欢守护者

2020-07-07 14:47:08

论文浏览(13) Resource Efficient 3D Convolutional Neural Networks

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀論文基本信息領域：行爲識別作者單位：慕尼黑工業大學&英特爾歐洲

清欢守护者

2020-07-07 14:47:08

论文浏览(12) SmallBigNet: Integrating Core and Contextual Views for Video Classification

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github 論文解讀論文基本信息領域：視頻分類作者單位：商湯&中國科學院深圳先進技

清欢守护者

2020-07-07 14:47:08

论文浏览(8) Asynchronous Interaction Aggregation for Action Detection

文章目錄0. 前言1. 要解決什麼問題2. 用了什麼方法3. 效果如何4. 還存在什麼問題 0. 前言相關資料： arxiv github：有webcam demo可以直接使用，但暫時沒有提供training代碼。論文解

清欢守护者

2020-07-07 14:47:08

24小時熱門文章

最新文章

最新評論文章