TALL: Temporal Activity Localization via Language Query

這是ICCV2017 Spotlight的一篇關於temporal activity localization via language query in an untrimmed video的文章,paper連接https://arxiv.org/abs/1705.02101,作者的homepage https://jiyanggao.github.io/,code已經被released出來了https://github.com/jiyanggao/TALL
文章要做的事情:
輸入:sentence+video      輸出:video clip
文章中show出來的example如下所示。
example on Charades-STA dataset
example on TACoS dataset
文章中show出來的實驗結果如下所示。
results

method

文章中的framework如下所示。
framework

文章主要由兩個loss function組成(和Fast-RCNN比較像)。

  • alignment loss。找video clip與sentence的match,採用滑動的窗口對視頻片段進行滑動,滑動窗口的大小分爲[64,128,256,512](訓練),測試的時候是128,正例的樣本需要滿足三個條件:
    1 .重疊的部分大於0.5。
    2 .不重疊的部分小於0.2。
    3 .一個滑動窗口只能描述一個句子。

  • location regressor loss。對開始和結束的時間進行迴歸。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章