TSM視頻理解解讀

原創

ImageVideoKing

2020-04-09 20:35

幾個月前我做了TSM的測試工作，由於的確比較笨，用pretrained model測試單個視頻我都費了好多天。

paper在此，pytorch代碼在此。

總體：

TSM達到三維卷積的效果，但是隻有2維卷積的複雜度。Temporal Shift Module就是沿着時間維度移動部分通道,因而方便幀之間的信息交換。

第二個圖是雙向的TSM，將過去和未來的幀與現在的幀交融。多餘的截斷，缺少的補零。離線模型。

第三個圖同向TSM。只將過去幀和當前幀進行交融。因爲這個是實時預測，不能獲取未來幀的信息。

這種操作就是shift，翻譯爲移位/位移，但移動的多了效果並不好，shift所有的channel效果並不好（也要保持空間特徵的學習能力啊），推斷時也費時間。

網絡結構：

backbone爲ResNet50（也可以是其他預訓練的模型，MobileNetV2則可放移動端），在每個殘差模塊（residual block）都嵌入了TSM，時間域感受野增大1倍，僅僅通過移位的操作就能實現僞3D模型的效果，也沒有增加計算量。

在線模型在推斷時，保存每個殘差模塊的1/8特徵圖到內存中，在下一幀替換掉該幀的前1/8，並將該1/8存入內存，因此使用的是7/8當前幀的特徵圖和1/8的舊的特徵圖。

batch_size=64，dropout=0.5，初始學習率0.01，採用kinetics數據預訓練的權重進行fine-tune，固定BN層，爲提高acc，複雜的視頻內容sample較多的clips（8或16幀爲一個clip）在somethingV1數據上只有一個clip，中心crop，224*224

代碼就不看了。沒時間了。

另外有相關問題可以加入QQ羣討論，不設微信羣

QQ羣：868373192

語音圖像視頻深度-學習羣

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

TSM視頻理解解讀

SQL優化-20231016

Anaconda安裝tensorflow-gpu

TSM視頻測試——終結篇啊

飛槳再次安裝———第二次入坑paddlepaddle

TSM視頻測試——中間篇

ResNet101網絡結構

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結