TSM視頻理解解讀

幾個月前我做了TSM的測試工作由於的確比較笨,用pretrained model測試單個視頻我都費了好多天

paper在此pytorch代碼在此

總體:

TSM達到三維卷積的效果,但是隻有2維卷積的複雜度。Temporal Shift Module就是沿着時間維度移動部分通道,因而方便幀之間的信息交換。

第二個圖是雙向的TSM,將過去和未來的幀與現在的幀交融。多餘的截斷,缺少的補零。離線模型。

第三個圖同向TSM。只將過去幀和當前幀進行交融。因爲這個是實時預測,不能獲取未來幀的信息。

這種操作就是shift,翻譯爲移位/位移,但移動的多了效果並不好,shift所有的channel效果並不好(也要保持空間特徵的學習能力啊),推斷時也費時間。

網絡結構:

backbone爲ResNet50(也可以是其他預訓練的模型,MobileNetV2則可放移動端),在每個殘差模塊(residual block)都嵌入了TSM,時間域感受野增大1倍,僅僅通過移位的操作就能實現僞3D模型的效果,也沒有增加計算量。

在線模型在推斷時,保存每個殘差模塊的1/8特徵圖到內存中,在下一幀替換掉該幀的前1/8,並將該1/8存入內存,因此使用的是7/8當前幀的特徵圖和1/8的舊的特徵圖。

batch_size=64,dropout=0.5,初始學習率0.01,採用kinetics數據預訓練的權重進行fine-tune,固定BN層,爲提高acc,複雜的視頻內容sample較多的clips(8或16幀爲一個clip)在somethingV1數據上只有一個clip,中心crop,224*224

代碼就不看了。沒時間了。

 

 

 

另外有相關問題可以加入QQ羣討論,不設微信羣

QQ羣:868373192 

語音圖像視頻深度-學習羣

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章