2020年, video captioning论文汇总

原創

2020-06-20 06:53

目录

CVPR2020：ORG-TRL

题目
Object Relational Graph with Teacher-Recommended Learning for Video Captioning
下载链接
动机
贡献
方法
实验

CVPR2020：STG-KD

题目
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation
下载链接
动机
已有的video captioning方法中，使用object-level或scene-level的信息生成captions，而不考虑objects之间的交互，这样生成的captions缺乏可解释性。本文提出在空间和时间两个维度上考虑objects之间的关系。
贡献

本文提出了新颖的时空图网络（ spatio-temporal graph network），用于video captioning。
本文提出了基于对象感知的知识蒸馏机制（object-aware knowledge distillation mechanism），用于处理时空图网络中的noisy features。

方法
本文方法的整体框架如下图所示。其中，从Transformer到output之间存在一条线，作者为了图像清晰没有画出来。
实验
在MSR-VTT上的实验结果：

在MSVD上的实验结果：

在MSVD上的消融实验：

一些实验结果，其中对比的方法出自ICCV 2019。

TIP2020：OSTG

题目
Video Captioning with Object-Aware Spatio-Temporal Correlation and Aggregation
下载链接
动机
本文方法和STG-KD几乎一致，作者认为准确的video captioning需要不仅需要考虑整体内容和显著物体，还要考虑物体间的关系（时间+空间）。
贡献

双向时间对齐（Bidirectional temporal alignment）。在两个时间方向上对objects进行对齐，可以实现互补。
基于图的空间关系学习（Graph based spatial relation learning）。使用图卷积捕获每帧中的物体之间的关系，将结果输入到后续的处理中，提高captions的准确性。
基于对象感知的特征聚合（Object-aware feature aggregation）。本文在物体的双向轨迹（the bidirectional trajectories of objects）上构造trainable VLAD（Vector of Locally Aggregated Descriptors），可以学到每个物体的具有判别力的特征。

方法
本文方法的整体框架如下图所示。其中，VLAD（vector of locally aggregated descriptors）出自
实验
在 MSVD数据集上的实验结果：

在MSR-VTT上的实验结果：

消融实验：

TPAMI2020：SibNet（MM2018）

题目
SibNet: Sibling Convolutional Encoder for Video Captioning
下载链接
动机
现有的方法中，编码video的信息时，常使用“一条线”（a single flow），本文为了更好的编码video信息，提出了“两条线”（two-branch）方法。其中，第一个分支（内容分支，content branch）使用自编码器编码video的视觉内容。第二个分支（语义分支，semantic branch）使用视觉-语义嵌入编码video的语义信息。然后，使用soft-attention将二者联合，再使用RNN进行解码，得到最终输出。
贡献

提出Sibling Convolutional Encoder (SibNet)，由两个分支组成，内容分支负责捕获视觉信息，语义分支用于生成“特定语义（semantic-specific）”的表示，这种表示可以捕获某些帧在语义上的重要性，为内容分支提供补充。
本文设计了新的损失函数，由三项组成，分别是：content loss、semantic loss、decoder loss。

方法
本文方法的整体架构如下图所示。

上图中，TCB（temporal convolutional blocks）是本文提出的一个模块，其结构如下图所示。
实验
在MSVD上的实验结果：

在MSR-VTT上的实验结果：

消融实验：

与其他模型的参数量对比：

一些实验结果展示：

WACV2020：DSD

题目
Domain-Specific Semantics Guided Approach to Video Captioning
下载链接
动机
这篇文章的出发点有些类似于Tracking中的MDNet，基于video features进行domain分类，对于每个domain都有一个语义特定的decoder。
贡献

提出领域特定（domain-specific）方法，使用领域特定的语义tags进行video captioning。
提出一种同时使用视觉特征和语义特征对video进行domain分类的方法。
提出一种视频共享的方法生成不同domain的decoder。
提出使用temporal VLAD聚合使用2D-CNN和3D-CNN模型提取的视频帧的描述符。

方法
本文方法的整体框架如下图所示。关于domain，本文使用tags进行聚类，得到多个domain。
实验
消融实验：

在MSVD数据集上的实验结果：

在MSR-VTT数据集上的实验结果：

实验结果展示：

WACV2020：STaTS

题目
Spatio-Temporal Ranked-Attention Networks for Video Captioning
下载链接
动机
本文从空间和时间的角度出发，提出在模型中同时添加两种不同的attention，并分两条线、两种顺序添加。第一条线是先S后T，另一条线是先T后S。并在第一条线上添加了本文提出的Ranked Attention。
贡献

提出s-t和t-s模型，两条线可以实现互补。
提出ranked attention，使用LSTM对rank-SVM进行仿真。
实验表明达到了sota。

方法
本文方法的整体架构如下图所示。

其中，ST模块的结构如下图所示。其中，Ranked Attention即为ST中的T。

其中，TS模块的结构如下图所示。
实验
使用不同特征，在MSVD和MSR-VTT上的实验结果：

在MSVD上与SOTA相比：

在MSR-VTT上与SOTA相比：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

2020年, VideoQA论文汇总

目錄CVPR2020：CRN CVPR2020：CRN 題目 Hierarchical Conditional Relation Networks for Video Question Answering 下載鏈接動機 Vid

2020-07-08 08:07:23

2020北京智源大会图神经网络专题总结

目錄引言[1] 基於感知和認知系統的邏輯關係推理作者介紹分享內容system1 和 syetem2 reasoningGMNN: Graph Markov Neural Networks (ICML2019)Probabilist

2020-07-06 14:22:03

Console 的进化——v5 可视化分析

前言服務器面對的環境千奇百怪，定位問題消耗了大量的人力成本，如何減少這方面的成本呢，最佳方式就是有一套優秀的排障工具，而可視化分析顯得尤爲重要。m7s console 將致力於打造一款方便實用且美觀的可視化工具，將 m7s 實例的運行狀況

2024-05-24 14:07:36

媒体文件播放代码大全

1.avi格式 <object id="video" width="400" height="200" border="0" classid="clsid:CFCDAA03-8BE4-11cf-B84B-0020AFBBCCFA"> <

2020-07-08 09:58:11

DiveIntoHTML5翻译(2)——检测HTML5特性

此篇爲片段翻譯，爲Dive into HTML5系列文章的第三篇，第二篇A Quite Biased History of HTML5 跳過 DETECTING HTML5 FEATURES DETECTION TECHNIQUE

2020-07-08 09:05:25

关于指针的一点摘要

1。一點基礎 int *p = NULL; 定義了 p是一個指針。 p這個指針的步長是4，也就是 ++p後，p的內存地址會增加4個byte。 p的初始值是NULL，NULL的定義一般是(void

2020-07-08 01:20:24

HTML5学习笔记第一节（智能提示和视频音频标签）

簡介 --------------------------------------------------------------------------------------------------------- 我這裏簡單寫一些，

2020-07-07 21:56:46

图像术语知识

STB: Set-top Box機頂盒CBTV: 數字電視HDTV: High-Definition TV 高清晰度電視 VBI: 場消隱期間；用場消隱期間傳遞圖文電視CVBS: 複合視頻信號NTSC: National

2020-07-07 10:41:00

Video.js + HLS 在production环境下webpack打包后出错的解决方案

Video.js + HLS 在production環境下webpack打包後出錯的解決方案參考文章：（1）Video.js + HLS 在production環境下webpack打包後出錯的解決方案（2）https://www.cn

2020-07-06 21:28:09

视频播放器html代码大全

視頻播放器html代碼大全 1.avi格式代碼片斷如下： <object id="video" width="400" height="200" border="0" classid="clsid:CFCDAA03-8BE4-11cf

2020-07-06 21:13:55

Media Foundation Programming--Enumerate the video or audio device

Define a device parameter struct: struct ChooseDeviceParam{ IMFActivate **ppDevices; // Array of IMFActivate po

2020-07-06 19:07:26

NVIDIA CUDA Installation Guide for Linux

NVIDIA CUDA Installation Guide for Linux The installation instructions for the CUDA Toolkit on Linux. 1. Introduction

2020-07-06 15:47:40

flash 10.1对android系统的支持等有关信息总结

一、關於adobe flash 1.adobe官方說明中聲明flash 10.1支持android（版本要大於等於2.2） (1)官網對"flash 10.1 for android"的說明 http://kb2.adob

2020-07-05 05:48:12

使用视频捕获

3.2.1創建捕獲窗體下面的例子通過使用capCreateCaptureWindow函數來創建一個捕獲窗體 hWndC = capCreateCaptureWindow ( (LPSTR) "My Capture Window", //

2020-07-05 00:54:10

基础知识：视频文件格式综述

http://bbs.chinavideo.org/redirect.php?tid=1795&goto=lastpost Multimedia Files----------------Many multimedia files

2020-07-04 21:36:32

24小時熱門文章

最新文章

最新評論文章