【CVPR2020】FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding

一、CVPR2020的满分oral文章。

二、作者:港中文的林达华团队

三、提出了一个细粒度的用于视频理解任务的数据集。具体的话就是行为识别等,具体的论文讲解的话原作者已经再知乎贴出来了:

https://zhuanlan.zhihu.com/p/130720627

四、大概浏览了一下主要通过这篇文章自己的收获如下:

  1. 对粗粒度和细粒度的认识:
    视频数据集中的细粒度:在图片中的粗粒度是比如区分猫和狗,细粒度就是区分狗是哪种狗;到视频的动作中的话,具体而言就是更加细化的动作类别。

  2. 自己主要关注的就是这篇文章最后分析中讨论的几个问题以及挖的坑:

(1)系数采样和密集采样:帧帧有用,帧多势众
(2)时域信息的重要性:这是一个讨论了很久的主题,如何对视频中信息进行时序建模时非常重要的:这里分别用TRN和TSM来对时序信息的重要性进行了说明,比如TSM当用3frame进行训练但是,测试用五帧的时候效果还好,但是当测试的帧数再增加的时候,效果明显下将,说明模型学习的时序建模能力也就被卡在了三五帧的样子;
(3)在Kinetic上与训练的参与在新数据集上的作用也不大,说明之前的数据集都是比较粗粒度且依赖场景的,这个数据集更加关注动作本身

  1. 值得思考的问题:

(1)怎么解决密集、快速的运动? ------用今年TPN提到的feature level的SlowFast方案可行吗?
(2)在空间语义上接近的比较细微的差别该如何解决?

(3)比较复杂的时域动态线索,
(4)基本的推理能力
(5)新数据集下的:提升采样率但保证运行效率?更高效的时序建模能力?更关注动作本身的数据集上空间信息还重要吗?有多重要?或者怎么让其起到更有效的作用?

这些都值得思考。
要是有人能和我讨论商量就好了,唉~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章