Temporal Activity Detection in Untrimmed Videos with Recurrent Neural Networks

團隊介紹

作者:

Alberto Montes, Amaia Salvador, Santiago Pascual, Xavier Giro-i-Nieto

作者都來自Universitat Politècnica de Catalunya (UPC)的一所西班牙大學,理工科挺強的,發表在NIPS workshop的一篇文章. 在ActivityNet Challenge 2016取得了不錯的

動機

利用C3D[1]能捕捉短時間的空時特徵,然後LSTM處理長時間的信息,Untrimmed Videos對進行分類和定位

框架

這裏寫圖片描述

C3D首先在sports-1M上進行預訓練,之後對預處理好的每16幀視頻(相鄰的視頻片段沒有交叉)離線提取時空特徵,將這些固定的特徵作爲LSTM的輸入,進行每一個片段的分類,每一類對應於一個動作類別(增加background作爲一類)。作者在文中也探討了不同深度,不同寬度的LSTM網絡。發現1x512的最淺最窄的最好。The simplest is the best.

tricks

  1. 對LSTM輸出的概率進行均值濾波,使其更平滑,消除異常概率值
  2. 爲了應對背景數據較多的情況,在計算loss時候,給其相對較小的權重

思考改進

如果C3D和LSTM一起訓練,微調C3D,重新訓練LSTM,效果應該會好一點,但用於參數衆多,也可能導致參數過多,導致過擬合

引用

  1. D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri, Learning Spatiotemporal Features with 3D Convolutional Networks, ICCV 2015
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章