CVPR2020:CRN
- 题目
Hierarchical Conditional Relation Networks for Video Question Answering
下载链接 - 动机
VideoQA的两个难点:1. 提取动态视觉信息和关系信息。2. 将提取到的信息与语言概念进行关联。现有的QA视频建模方法是构建神经结构,其中每个子系统要么是为特定的定制目的设计的,要么是为特定的数据模态设计的。所以,这些模型结构不能适应数据模态的变化、视频长度的变化、或问题类型的变化。 - 贡献
- 新的视频表示方法
- 可用于视频文本交互的building block
- 方法
本文提出的CRN block如下图所示:
CRN的流程为:
本文的整体框架为:
本文的层次化CRNs主要分为四层:1. 编码clip之间的帧,context: clip motion。2. 聚合linguistic信息。3. 编码不同的clip,context: video motion。4. 聚合linguistic信息。 - 实验
在TGIF-QA数据集上的实验结果: