2020年, video captioning论文汇总

CVPR2020:ORG-TRL

  • 题目
    Object Relational Graph with Teacher-Recommended Learning for Video Captioning
    下载链接
  • 动机
  • 贡献
  • 方法


  • 实验


CVPR2020:STG-KD

  • 题目
    Spatio-Temporal Graph for Video Captioning with Knowledge Distillation
    下载链接
  • 动机
    已有的video captioning方法中,使用object-level或scene-level的信息生成captions,而不考虑objects之间的交互,这样生成的captions缺乏可解释性。本文提出在空间和时间两个维度上考虑objects之间的关系。
  • 贡献
  1. 本文提出了新颖的时空图网络( spatio-temporal graph network),用于video captioning。
  2. 本文提出了基于对象感知的知识蒸馏机制(object-aware knowledge distillation mechanism),用于处理时空图网络中的noisy features。
  • 方法
    本文方法的整体框架如下图所示。其中,从Transformer到output之间存在一条线,作者为了图像清晰没有画出来。
  • 实验
    在MSR-VTT上的实验结果:

    在MSVD上的实验结果:

    在MSVD上的消融实验:

    一些实验结果,其中对比的方法出自ICCV 2019。

TIP2020:OSTG

  • 题目
    Video Captioning with Object-Aware Spatio-Temporal Correlation and Aggregation
    下载链接
  • 动机
    本文方法和STG-KD几乎一致,作者认为准确的video captioning需要不仅需要考虑整体内容和显著物体,还要考虑物体间的关系(时间+空间)。
  • 贡献
  1. 双向时间对齐(Bidirectional temporal alignment)。在两个时间方向上对objects进行对齐,可以实现互补。
  2. 基于图的空间关系学习(Graph based spatial relation learning)。使用图卷积捕获每帧中的物体之间的关系,将结果输入到后续的处理中,提高captions的准确性。
  3. 基于对象感知的特征聚合(Object-aware feature aggregation)。本文在物体的双向轨迹(the bidirectional trajectories of objects)上构造trainable VLAD(Vector of Locally Aggregated Descriptors),可以学到每个物体的具有判别力的特征。
  • 方法
    本文方法的整体框架如下图所示。其中,VLAD(vector of locally aggregated descriptors)出自
  • 实验
    在 MSVD数据集上的实验结果:

    在MSR-VTT上的实验结果:

    消融实验:

TPAMI2020:SibNet(MM2018)

  • 题目
    SibNet: Sibling Convolutional Encoder for Video Captioning
    下载链接
  • 动机
    现有的方法中,编码video的信息时,常使用“一条线”(a single flow),本文为了更好的编码video信息,提出了“两条线”(two-branch)方法。其中,第一个分支(内容分支,content branch)使用自编码器编码video的视觉内容。第二个分支(语义分支,semantic branch)使用视觉-语义嵌入编码video的语义信息。然后,使用soft-attention将二者联合,再使用RNN进行解码,得到最终输出。
  • 贡献
  1. 提出Sibling Convolutional Encoder (SibNet),由两个分支组成,内容分支负责捕获视觉信息,语义分支用于生成“特定语义 (semantic-specific)”的表示,这种表示可以捕获某些帧在语义上的重要性,为内容分支提供补充。
  2. 本文设计了新的损失函数,由三项组成,分别是:content loss、semantic loss、decoder loss。
  • 方法
    本文方法的整体架构如下图所示。

    上图中,TCB(temporal convolutional blocks)是本文提出的一个模块,其结构如下图所示。
  • 实验
    在MSVD上的实验结果:

    在MSR-VTT上的实验结果:

    消融实验:

    与其他模型的参数量对比:

    一些实验结果展示:

WACV2020:DSD

  • 题目
    Domain-Specific Semantics Guided Approach to Video Captioning
    下载链接
  • 动机
    这篇文章的出发点有些类似于Tracking中的MDNet,基于video features进行domain分类,对于每个domain都有一个语义特定的decoder。
  • 贡献
  1. 提出领域特定(domain-specific)方法,使用领域特定的语义tags进行video captioning。
  2. 提出一种同时使用视觉特征和语义特征对video进行domain分类的方法。
  3. 提出一种视频共享的方法生成不同domain的decoder。
  4. 提出使用temporal VLAD聚合使用2D-CNN和3D-CNN模型提取的视频帧的描述符。
  • 方法
    本文方法的整体框架如下图所示。关于domain,本文使用tags进行聚类,得到多个domain。
  • 实验
    消融实验:

    在MSVD数据集上的实验结果:

    在MSR-VTT数据集上的实验结果:

    实验结果展示:

WACV2020:STaTS

  • 题目
    Spatio-Temporal Ranked-Attention Networks for Video Captioning
    下载链接
  • 动机
    本文从空间和时间的角度出发,提出在模型中同时添加两种不同的attention,并分两条线、两种顺序添加。第一条线是先S后T,另一条线是先T后S。并在第一条线上添加了本文提出的Ranked Attention。
  • 贡献
  1. 提出s-t和t-s模型,两条线可以实现互补。
  2. 提出ranked attention,使用LSTM对rank-SVM进行仿真。
  3. 实验表明达到了sota。
  • 方法
    本文方法的整体架构如下图所示。

    其中,ST模块的结构如下图所示。其中,Ranked Attention即为ST中的T。

    其中,TS模块的结构如下图所示。
  • 实验
    使用不同特征,在MSVD和MSR-VTT上的实验结果:

    在MSVD上与SOTA相比:

    在MSR-VTT上与SOTA相比:
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章