TALL: Temporal Activity Localization via Language Query

原創

2018-09-04 09:48

這是ICCV2017 Spotlight的一篇關於temporal activity localization via language query in an untrimmed video的文章，paper連接https://arxiv.org/abs/1705.02101，作者的homepage https://jiyanggao.github.io/，code已經被released出來了https://github.com/jiyanggao/TALL。
文章要做的事情：
輸入：sentence+video 　　　　　輸出：video clip
文章中show出來的example如下所示。

文章中show出來的實驗結果如下所示。

method

文章中的framework如下所示。

文章主要由兩個loss function組成（和Fast-RCNN比較像）。

alignment loss。找video clip與sentence的match，採用滑動的窗口對視頻片段進行滑動，滑動窗口的大小分爲[64，128，256，512]（訓練），測試的時候是128，正例的樣本需要滿足三個條件：
1 .重疊的部分大於0.5。
2 .不重疊的部分小於0.2。
3 .一個滑動窗口只能描述一個句子。
location regressor loss。對開始和結束的時間進行迴歸。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

TALL: Temporal Activity Localization via Language Query

image caption研究進展

計算機視覺方向如何寫文章

Text2Colors: Guiding Image Colorization through Text-Driven Palette Generation

計算機視覺中的長尾問題

360圖像拼接

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結