Siamese Instance Search for Tracking論文筆記
1. 論文標題及來源
SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks, CVPR, 2019.
下載地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Li_SiamRPN_Evolution_of_Siamese_Visual_Tracking_With_Very_Deep_Networks_CVPR_2019_paper.pdf
2. 擬解決問題
a. 網絡加深,缺少平移等變性
b. 提升算法性能
3. 解決方法
3.1 算法流程
該算法的骨幹網絡是ResNet,作者使用來自Conv3-3,Conv4-6和Conv5_3的特徵。左圖是算法網絡結構,右圖是SirameseRPN的網絡結構。
算法流程
a. 從數據集中提取target和search region
b. 將target和search region分別輸入到骨幹網絡中提取特徵
c. 將conv3-3,conv4-6,conv5_3的特徵分別輸入到SiameseRPN中進行分類和迴歸,得到分類得分和迴歸偏移量
d. 將三個SiameseRPN輸出的分類得分和迴歸偏移通過賦予一定的權重,並相加,得到最終的分類得分和迴歸偏移
d. 根據最終的分類得分和迴歸偏移得到下一幀target的位置
SiameseRPN
此處可以參考SiameseRPN,和SiameseRPN 不同的是:
a. 此處的adj_1, adj_2, adj_3, adj_4不共享權重
b. 將SiameseRPN中的Up-Channel Cross Correlation Layer換成Depth-wise Cross Correlation
Up-Channel Cross Correlation Layer和Depth-wise Cross Correlation將在後章節介紹
3.2 孿生網絡存在問題及解決
a. 根據卷積的定義,卷積過程具有平移不變性,但實際上,每次卷積都會增加padding,而增加的padding會破壞卷積平移不變性;然而如果不增加padding,隨着網絡深度的加深,特徵圖的大小會逐漸趨向0。
b. 分類分支和迴歸分支需要非對稱特徵
作者認爲增加padding會導致spatial bias,爲了證明這個結論,作者進行了偏移實驗,結果如下
shit表示偏移。
a. 當沒有偏移時,邊界區域的置信度會突變爲0
b. 當增加偏移時,會阻止模型陷入這種情況
爲了解決上述問題a,作者提出spatial aware sampling strategy,並通過如下實驗證明其效果
從上圖可以發現,當隨機偏移64個像素時,它的效果最好,這可能是因爲增加隨機擾動能夠更接近目標的位置分佈。
對於問題b,作者使用非共享權重的conv解決
3.3 Depth-wise Cross Correlation
在孿生網絡中,存在不同的Cross Correlation,例如SiamFC使用的Cross Correlation如上圖a所示,SiamRPN使用的Cross Correlation如上圖b所示,本文使用的Cross Correlation如上圖c所示。
作者分析發現在RPN中,上述Cross Correlation方式約有20M參數,但是特徵提取器中大概只有4M參數,這會導致參數分佈不平衡,從而導致SiamRPN很難優化。
爲了解決這種分佈不平衡,作者提出Depth-wise Cross Correlation。它按照通道卷積,大幅減少參數,提高算法速度。
通過這種方式會使某一類別由特定的通道輸出,而其餘的通道會受到抑制
3.4 主要公式說明
a. 特徵融合
表示融合後的分類得分,表示融合後的迴歸偏移
4. 實驗結果
4.1 消融實驗
4.2 VOT2018
4.3 OTB2015
4.4 VOT2018 long-term
4.5 UAV123
4.6 LaSOT
4.7 TrackingNet
5. 總結
該算法在SiamRPN的基礎上,通過引入spatial aware採樣策略(隨機偏移)緩解平移不變性問題,增加網絡深度,提升算法效果。OTB2015的AUC和Precision分別是0.696和0.914;VOT2018的EAO, Accuracy, Robustness, AO分別是0.414,0.6, 0.234,0.498;VOT2018(long term)的F-score是0.629;UAV123的AUC和Precision分別是0.613和0.807;LaSOT的AUC和分別是0.496和0.569;TrackingNet的AUC,P和分別是0733,0.694,0.8