2020年, VideoQA论文汇总

CVPR2020:CRN

  • 题目
    Hierarchical Conditional Relation Networks for Video Question Answering
    下载链接
  • 动机
    VideoQA的两个难点:1. 提取动态视觉信息和关系信息。2. 将提取到的信息与语言概念进行关联。现有的QA视频建模方法是构建神经结构,其中每个子系统要么是为特定的定制目的设计的,要么是为特定的数据模态设计的。所以,这些模型结构不能适应数据模态的变化、视频长度的变化、或问题类型的变化。
  • 贡献
  1. 新的视频表示方法
  2. 可用于视频文本交互的building block
  • 方法
    本文提出的CRN block如下图所示:

    CRN的流程为:

    本文的整体框架为:

    本文的层次化CRNs主要分为四层:1. 编码clip之间的帧,context: clip motion。2. 聚合linguistic信息。3. 编码不同的clip,context: video motion。4. 聚合linguistic信息。
  • 实验
    在TGIF-QA数据集上的实验结果:
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章