這是ICCV2017 Spotlight的一篇關於temporal activity localization via language query in an untrimmed video的文章,paper連接https://arxiv.org/abs/1705.02101,作者的homepage https://jiyanggao.github.io/,code已經被released出來了https://github.com/jiyanggao/TALL。
文章要做的事情:
輸入:sentence+video 輸出:video clip
文章中show出來的example如下所示。
文章中show出來的實驗結果如下所示。
method
文章中的framework如下所示。
文章主要由兩個loss function組成(和Fast-RCNN比較像)。
alignment loss。找video clip與sentence的match,採用滑動的窗口對視頻片段進行滑動,滑動窗口的大小分爲[64,128,256,512](訓練),測試的時候是128,正例的樣本需要滿足三個條件:
1 .重疊的部分大於0.5。
2 .不重疊的部分小於0.2。
3 .一個滑動窗口只能描述一個句子。location regressor loss。對開始和結束的時間進行迴歸。