論文筆記End-to-end flow correlation tracking with spatial-temporal attention
1. 標題及來源
End-to-end flow correlation tracking with spatial-temporal attention, CVPR 2018
2. 閱讀目的
1. 瞭解他人如何將時序信息加入到網絡中
2. spatial-temporal attention(時空注意力機制)
3. 領域
Object tracking
4. 擬解決的問題
1. 將時序信息加入到網絡中來解決遮擋問題和形變問題
5. 提出的方法
5.1 算法概要
該算法分爲兩個分支。
在Current Branch中,使用Feature Net提取當前幀的特徵
在Historical Branch中,
- 前T幀i都和第t-1幀做光流計算,
- 用光流wrap第i幀的特徵,
- 把這些特徵融合到一起,形成一個比較好的特徵
- 將融合後的特徵通過spatial-temporal attention模塊重新定義權重,形成新的特徵
- 將輸入到CF層獲得響應值最大的點,這個就是待跟蹤的目標
5.2 Spatial-temporal attention module
spatial attention
作者對前i幀的加權融合提出了一種新的加權策略
簡單來講,就是衡量第 i 幀的特徵和t-1幀像不像,像的話就給一個比較大的權值,不像就給一個比較小的權值
temporal attention
實際上就是通道注意力機制,即對各特徵通道進行加權,重新定義每個特徵通道的權重。對於激活程度較大、貢獻度較大的通道給予大的權重;對於激活程度較小、貢獻度較小的通道給予小的權重
6. 結果
6.1 OTB-2013實驗結果
在success plots of OPE中,FlowTrack的AUC score是0.689,超過了VOT2016的冠軍CCOT,並且超過了另外一個使用flow information的算法SINT+
在Precision plots of OPE中,FlowTrack的得分是0.921,也超過了CCOT和SINT+。
效果能得到提升主要歸功於豐富的光流信息
6.2 OTB-2015實驗結果
從圖中可以發現FlowTrack算法的效果是最好的
6.3 VOT-2015實驗結果
6.4 VOT-2016實驗結果
6.5 消融實驗
decay:fuse the wraped feature maps by decaying with time
從表中可以發現,
- 當加入flow後,算法的提升效果都超過了6%
- 端到端訓練的必要性:當使用fix flow時,除了在OTB2015數據集上,算法的效果得到了提升,但是在其它數據集上的效果都下降了。
- flow aggregation的有效性:對比decay與FlowTr可以發現,VOT2015和VOT2016上的EAO提升了3%個點
- temporal attention進一步提升了效果
7. 改進&存在的問題
1. 算法的速度較慢,只有在TITAN X上只有12fps
2. 算法的效果並不能超過級聯RPN(CVPR2019)
8. 可借鑑的點
1. spatial-temporal attention機制
詳見5.2
2. 光流的融合方式
取最近的T幀,然後將這T幀提取分別與第t-1幀計算光流,然後將這T幀的光流融合在一起,使用注意力機制,對每一幀賦予不同的權重
9. 知識補充
9.1 Hadamard Product(哈達瑪積)
Hadamard Product:矩陣中對應位置相乘
參考資料:https://www.maixj.net/misc/hadamard-product-19256
9.2 bilinear interpolation(雙線性插值)
參考資料:https://blog.csdn.net/xbinworld/article/details/65660665
9.3 cosine similarity(餘弦相似度)
餘弦相似度:兩個向量之間夾角的餘弦值
參考資料:https://www.jianshu.com/p/fb4b38eb452d
9.4 光流(optical flow)
參考資料:https://blog.csdn.net/yushupan/article/details/78823548
9.5 RoI Pooling和RoI Align
參考資料:https://www.cnblogs.com/wangyong/p/8523814.html
9.6 基於相關濾波的目標跟蹤
參考資料:https://blog.csdn.net/qq_34919792/article/details/89893433