2020年, video captioning論文彙總

CVPR2020:ORG-TRL

  • 題目
    Object Relational Graph with Teacher-Recommended Learning for Video Captioning
    下載鏈接
  • 動機
  • 貢獻
  • 方法


  • 實驗


CVPR2020:STG-KD

  • 題目
    Spatio-Temporal Graph for Video Captioning with Knowledge Distillation
    下載鏈接
  • 動機
    已有的video captioning方法中,使用object-level或scene-level的信息生成captions,而不考慮objects之間的交互,這樣生成的captions缺乏可解釋性。本文提出在空間和時間兩個維度上考慮objects之間的關係。
  • 貢獻
  1. 本文提出了新穎的時空圖網絡( spatio-temporal graph network),用於video captioning。
  2. 本文提出了基於對象感知的知識蒸餾機制(object-aware knowledge distillation mechanism),用於處理時空圖網絡中的noisy features。
  • 方法
    本文方法的整體框架如下圖所示。其中,從Transformer到output之間存在一條線,作者爲了圖像清晰沒有畫出來。
  • 實驗
    在MSR-VTT上的實驗結果:

    在MSVD上的實驗結果:

    在MSVD上的消融實驗:

    一些實驗結果,其中對比的方法出自ICCV 2019。

TIP2020:OSTG

  • 題目
    Video Captioning with Object-Aware Spatio-Temporal Correlation and Aggregation
    下載鏈接
  • 動機
    本文方法和STG-KD幾乎一致,作者認爲準確的video captioning需要不僅需要考慮整體內容和顯著物體,還要考慮物體間的關係(時間+空間)。
  • 貢獻
  1. 雙向時間對齊(Bidirectional temporal alignment)。在兩個時間方向上對objects進行對齊,可以實現互補。
  2. 基於圖的空間關係學習(Graph based spatial relation learning)。使用圖卷積捕獲每幀中的物體之間的關係,將結果輸入到後續的處理中,提高captions的準確性。
  3. 基於對象感知的特徵聚合(Object-aware feature aggregation)。本文在物體的雙向軌跡(the bidirectional trajectories of objects)上構造trainable VLAD(Vector of Locally Aggregated Descriptors),可以學到每個物體的具有判別力的特徵。
  • 方法
    本文方法的整體框架如下圖所示。其中,VLAD(vector of locally aggregated descriptors)出自
  • 實驗
    在 MSVD數據集上的實驗結果:

    在MSR-VTT上的實驗結果:

    消融實驗:

TPAMI2020:SibNet(MM2018)

  • 題目
    SibNet: Sibling Convolutional Encoder for Video Captioning
    下載鏈接
  • 動機
    現有的方法中,編碼video的信息時,常使用“一條線”(a single flow),本文爲了更好的編碼video信息,提出了“兩條線”(two-branch)方法。其中,第一個分支(內容分支,content branch)使用自編碼器編碼video的視覺內容。第二個分支(語義分支,semantic branch)使用視覺-語義嵌入編碼video的語義信息。然後,使用soft-attention將二者聯合,再使用RNN進行解碼,得到最終輸出。
  • 貢獻
  1. 提出Sibling Convolutional Encoder (SibNet),由兩個分支組成,內容分支負責捕獲視覺信息,語義分支用於生成“特定語義 (semantic-specific)”的表示,這種表示可以捕獲某些幀在語義上的重要性,爲內容分支提供補充。
  2. 本文設計了新的損失函數,由三項組成,分別是:content loss、semantic loss、decoder loss。
  • 方法
    本文方法的整體架構如下圖所示。

    上圖中,TCB(temporal convolutional blocks)是本文提出的一個模塊,其結構如下圖所示。
  • 實驗
    在MSVD上的實驗結果:

    在MSR-VTT上的實驗結果:

    消融實驗:

    與其他模型的參數量對比:

    一些實驗結果展示:

WACV2020:DSD

  • 題目
    Domain-Specific Semantics Guided Approach to Video Captioning
    下載鏈接
  • 動機
    這篇文章的出發點有些類似於Tracking中的MDNet,基於video features進行domain分類,對於每個domain都有一個語義特定的decoder。
  • 貢獻
  1. 提出領域特定(domain-specific)方法,使用領域特定的語義tags進行video captioning。
  2. 提出一種同時使用視覺特徵和語義特徵對video進行domain分類的方法。
  3. 提出一種視頻共享的方法生成不同domain的decoder。
  4. 提出使用temporal VLAD聚合使用2D-CNN和3D-CNN模型提取的視頻幀的描述符。
  • 方法
    本文方法的整體框架如下圖所示。關於domain,本文使用tags進行聚類,得到多個domain。
  • 實驗
    消融實驗:

    在MSVD數據集上的實驗結果:

    在MSR-VTT數據集上的實驗結果:

    實驗結果展示:

WACV2020:STaTS

  • 題目
    Spatio-Temporal Ranked-Attention Networks for Video Captioning
    下載鏈接
  • 動機
    本文從空間和時間的角度出發,提出在模型中同時添加兩種不同的attention,並分兩條線、兩種順序添加。第一條線是先S後T,另一條線是先T後S。並在第一條線上添加了本文提出的Ranked Attention。
  • 貢獻
  1. 提出s-t和t-s模型,兩條線可以實現互補。
  2. 提出ranked attention,使用LSTM對rank-SVM進行仿真。
  3. 實驗表明達到了sota。
  • 方法
    本文方法的整體架構如下圖所示。

    其中,ST模塊的結構如下圖所示。其中,Ranked Attention即爲ST中的T。

    其中,TS模塊的結構如下圖所示。
  • 實驗
    使用不同特徵,在MSVD和MSR-VTT上的實驗結果:

    在MSVD上與SOTA相比:

    在MSR-VTT上與SOTA相比:
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章