團隊介紹
作者:
Alberto Montes, Amaia Salvador, Santiago Pascual, Xavier Giro-i-Nieto
作者都來自Universitat Politècnica de Catalunya (UPC)的一所西班牙大學,理工科挺強的,發表在NIPS workshop的一篇文章. 在ActivityNet Challenge 2016取得了不錯的
動機
利用C3D[1]能捕捉短時間的空時特徵,然後LSTM處理長時間的信息,Untrimmed Videos對進行分類和定位
框架
C3D首先在sports-1M上進行預訓練,之後對預處理好的每16幀視頻(相鄰的視頻片段沒有交叉)離線提取時空特徵,將這些固定的特徵作爲LSTM的輸入,進行每一個片段的分類,每一類對應於一個動作類別(增加background作爲一類)。作者在文中也探討了不同深度,不同寬度的LSTM網絡。發現1x512的最淺最窄的最好。The simplest is the best.
tricks
- 對LSTM輸出的概率進行均值濾波,使其更平滑,消除異常概率值
- 爲了應對背景數據較多的情況,在計算loss時候,給其相對較小的權重
思考改進
如果C3D和LSTM一起訓練,微調C3D,重新訓練LSTM,效果應該會好一點,但用於參數衆多,也可能導致參數過多,導致過擬合
引用
- D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri, Learning Spatiotemporal Features with 3D Convolutional Networks, ICCV 2015