2020年, video captioning論文彙總

原創

2020-06-20 06:53

目錄

CVPR2020：ORG-TRL

題目
Object Relational Graph with Teacher-Recommended Learning for Video Captioning
下載鏈接
動機
貢獻
方法
實驗

CVPR2020：STG-KD

題目
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation
下載鏈接
動機
已有的video captioning方法中，使用object-level或scene-level的信息生成captions，而不考慮objects之間的交互，這樣生成的captions缺乏可解釋性。本文提出在空間和時間兩個維度上考慮objects之間的關係。
貢獻

本文提出了新穎的時空圖網絡（ spatio-temporal graph network），用於video captioning。
本文提出了基於對象感知的知識蒸餾機制（object-aware knowledge distillation mechanism），用於處理時空圖網絡中的noisy features。

方法
本文方法的整體框架如下圖所示。其中，從Transformer到output之間存在一條線，作者爲了圖像清晰沒有畫出來。
實驗
在MSR-VTT上的實驗結果：

在MSVD上的實驗結果：

在MSVD上的消融實驗：

一些實驗結果，其中對比的方法出自ICCV 2019。

TIP2020：OSTG

題目
Video Captioning with Object-Aware Spatio-Temporal Correlation and Aggregation
下載鏈接
動機
本文方法和STG-KD幾乎一致，作者認爲準確的video captioning需要不僅需要考慮整體內容和顯著物體，還要考慮物體間的關係（時間+空間）。
貢獻

雙向時間對齊（Bidirectional temporal alignment）。在兩個時間方向上對objects進行對齊，可以實現互補。
基於圖的空間關係學習（Graph based spatial relation learning）。使用圖卷積捕獲每幀中的物體之間的關係，將結果輸入到後續的處理中，提高captions的準確性。
基於對象感知的特徵聚合（Object-aware feature aggregation）。本文在物體的雙向軌跡（the bidirectional trajectories of objects）上構造trainable VLAD（Vector of Locally Aggregated Descriptors），可以學到每個物體的具有判別力的特徵。

方法
本文方法的整體框架如下圖所示。其中，VLAD（vector of locally aggregated descriptors）出自
實驗
在 MSVD數據集上的實驗結果：

在MSR-VTT上的實驗結果：

消融實驗：

TPAMI2020：SibNet（MM2018）

題目
SibNet: Sibling Convolutional Encoder for Video Captioning
下載鏈接
動機
現有的方法中，編碼video的信息時，常使用“一條線”（a single flow），本文爲了更好的編碼video信息，提出了“兩條線”（two-branch）方法。其中，第一個分支（內容分支，content branch）使用自編碼器編碼video的視覺內容。第二個分支（語義分支，semantic branch）使用視覺-語義嵌入編碼video的語義信息。然後，使用soft-attention將二者聯合，再使用RNN進行解碼，得到最終輸出。
貢獻

提出Sibling Convolutional Encoder (SibNet)，由兩個分支組成，內容分支負責捕獲視覺信息，語義分支用於生成“特定語義（semantic-specific）”的表示，這種表示可以捕獲某些幀在語義上的重要性，爲內容分支提供補充。
本文設計了新的損失函數，由三項組成，分別是：content loss、semantic loss、decoder loss。

方法
本文方法的整體架構如下圖所示。

上圖中，TCB（temporal convolutional blocks）是本文提出的一個模塊，其結構如下圖所示。
實驗
在MSVD上的實驗結果：

在MSR-VTT上的實驗結果：

消融實驗：

與其他模型的參數量對比：

一些實驗結果展示：

WACV2020：DSD

題目
Domain-Specific Semantics Guided Approach to Video Captioning
下載鏈接
動機
這篇文章的出發點有些類似於Tracking中的MDNet，基於video features進行domain分類，對於每個domain都有一個語義特定的decoder。
貢獻

提出領域特定（domain-specific）方法，使用領域特定的語義tags進行video captioning。
提出一種同時使用視覺特徵和語義特徵對video進行domain分類的方法。
提出一種視頻共享的方法生成不同domain的decoder。
提出使用temporal VLAD聚合使用2D-CNN和3D-CNN模型提取的視頻幀的描述符。

方法
本文方法的整體框架如下圖所示。關於domain，本文使用tags進行聚類，得到多個domain。
實驗
消融實驗：

在MSVD數據集上的實驗結果：

在MSR-VTT數據集上的實驗結果：

實驗結果展示：

WACV2020：STaTS

題目
Spatio-Temporal Ranked-Attention Networks for Video Captioning
下載鏈接
動機
本文從空間和時間的角度出發，提出在模型中同時添加兩種不同的attention，並分兩條線、兩種順序添加。第一條線是先S後T，另一條線是先T後S。並在第一條線上添加了本文提出的Ranked Attention。
貢獻

提出s-t和t-s模型，兩條線可以實現互補。
提出ranked attention，使用LSTM對rank-SVM進行仿真。
實驗表明達到了sota。

方法
本文方法的整體架構如下圖所示。

其中，ST模塊的結構如下圖所示。其中，Ranked Attention即爲ST中的T。

其中，TS模塊的結構如下圖所示。
實驗
使用不同特徵，在MSVD和MSR-VTT上的實驗結果：

在MSVD上與SOTA相比：

在MSR-VTT上與SOTA相比：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

2020年, VideoQA論文彙總

目錄CVPR2020：CRN CVPR2020：CRN 題目 Hierarchical Conditional Relation Networks for Video Question Answering 下載鏈接動機 Vid

2020-07-08 08:07:23

2020北京智源大會圖神經網絡專題總結

目錄引言[1] 基於感知和認知系統的邏輯關係推理作者介紹分享內容system1 和 syetem2 reasoningGMNN: Graph Markov Neural Networks (ICML2019)Probabilist

2020-07-06 14:22:03

媒體文件播放代碼大全

1.avi格式 <object id="video" width="400" height="200" border="0" classid="clsid:CFCDAA03-8BE4-11cf-B84B-0020AFBBCCFA"> <

2020-07-08 09:58:11

DiveIntoHTML5翻譯(2)——檢測HTML5特性

此篇爲片段翻譯，爲Dive into HTML5系列文章的第三篇，第二篇A Quite Biased History of HTML5 跳過 DETECTING HTML5 FEATURES DETECTION TECHNIQUE

2020-07-08 09:05:25

關於指針的一點摘要

1。一點基礎 int *p = NULL; 定義了 p是一個指針。 p這個指針的步長是4，也就是 ++p後，p的內存地址會增加4個byte。 p的初始值是NULL，NULL的定義一般是(void

2020-07-08 01:20:24

HTML5學習筆記第一節（智能提示和視頻音頻標籤）

簡介 --------------------------------------------------------------------------------------------------------- 我這裏簡單寫一些，

2020-07-07 21:56:46

圖像術語知識

STB: Set-top Box機頂盒CBTV: 數字電視HDTV: High-Definition TV 高清晰度電視 VBI: 場消隱期間；用場消隱期間傳遞圖文電視CVBS: 複合視頻信號NTSC: National

2020-07-07 10:41:00

Video.js + HLS 在production環境下webpack打包後出錯的解決方案

Video.js + HLS 在production環境下webpack打包後出錯的解決方案參考文章：（1）Video.js + HLS 在production環境下webpack打包後出錯的解決方案（2）https://www.cn

2020-07-06 21:28:09

視頻播放器html代碼大全

視頻播放器html代碼大全 1.avi格式代碼片斷如下： <object id="video" width="400" height="200" border="0" classid="clsid:CFCDAA03-8BE4-11cf

2020-07-06 21:13:55

Media Foundation Programming--Enumerate the video or audio device

Define a device parameter struct: struct ChooseDeviceParam{ IMFActivate **ppDevices; // Array of IMFActivate po

2020-07-06 19:07:26

NVIDIA CUDA Installation Guide for Linux

NVIDIA CUDA Installation Guide for Linux The installation instructions for the CUDA Toolkit on Linux. 1. Introduction

2020-07-06 15:47:40

flash 10.1對android系統的支持等有關信息總結

一、關於adobe flash 1.adobe官方說明中聲明flash 10.1支持android（版本要大於等於2.2） (1)官網對"flash 10.1 for android"的說明 http://kb2.adob

2020-07-05 05:48:12

使用視頻捕獲

3.2.1創建捕獲窗體下面的例子通過使用capCreateCaptureWindow函數來創建一個捕獲窗體 hWndC = capCreateCaptureWindow ( (LPSTR) "My Capture Window", //

2020-07-05 00:54:10

基礎知識：視頻文件格式綜述

http://bbs.chinavideo.org/redirect.php?tid=1795&goto=lastpost Multimedia Files----------------Many multimedia files

2020-07-04 21:36:32

獲得視頻時間總長度的另一種方法

利用Ffmpeg獲得flv視頻縮略圖和視頻時間當時獲得視頻長度是採用網上的通用的獲得flv視頻文件長度的方法，但是這個方法只對flv視頻支持，其他格式的視頻獲取到的值就很差了，下面在介紹一種：利用ffmpeg返回值Duration的

2020-07-04 14:27:36

24小時熱門文章

最新文章

最新評論文章