論文筆記SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks

1. 論文標題及來源

SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks, CVPR, 2019.
下載地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Li_SiamRPN_Evolution_of_Siamese_Visual_Tracking_With_Very_Deep_Networks_CVPR_2019_paper.pdf

2. 擬解決問題

a. 網絡加深,缺少平移等變性
b. 提升算法性能

3. 解決方法

3.1 算法流程

在這裏插入圖片描述
該算法的骨幹網絡是ResNet,作者使用來自Conv3-3,Conv4-6和Conv5_3的特徵。左圖是算法網絡結構,右圖是SirameseRPN的網絡結構。
算法流程
a. 從數據集中提取target和search region
b. 將target和search region分別輸入到骨幹網絡中提取特徵
c. 將conv3-3,conv4-6,conv5_3的特徵分別輸入到SiameseRPN中進行分類和迴歸,得到分類得分和迴歸偏移量
d. 將三個SiameseRPN輸出的分類得分和迴歸偏移通過賦予一定的權重,並相加,得到最終的分類得分和迴歸偏移
d. 根據最終的分類得分和迴歸偏移得到下一幀target的位置

SiameseRPN
此處可以參考SiameseRPN,和SiameseRPN 不同的是:
a. 此處的adj_1, adj_2, adj_3, adj_4不共享權重
b. 將SiameseRPN中的Up-Channel Cross Correlation Layer換成Depth-wise Cross Correlation
Up-Channel Cross Correlation Layer和Depth-wise Cross Correlation將在後章節介紹

3.2 孿生網絡存在問題及解決

a. 根據卷積的定義,卷積過程具有平移不變性,但實際上,每次卷積都會增加padding,而增加的padding會破壞卷積平移不變性;然而如果不增加padding,隨着網絡深度的加深,特徵圖的大小會逐漸趨向0。
b. 分類分支和迴歸分支需要非對稱特徵

作者認爲增加padding會導致spatial bias,爲了證明這個結論,作者進行了偏移實驗,結果如下
在這裏插入圖片描述
shit表示偏移。
a. 當沒有偏移時,邊界區域的置信度會突變爲0
b. 當增加偏移時,會阻止模型陷入這種情況
爲了解決上述問題a,作者提出spatial aware sampling strategy,並通過如下實驗證明其效果
在這裏插入圖片描述
從上圖可以發現,當隨機偏移64個像素時,它的效果最好,這可能是因爲增加隨機擾動能夠更接近目標的位置分佈。

對於問題b,作者使用非共享權重的conv解決

3.3 Depth-wise Cross Correlation

在這裏插入圖片描述
在孿生網絡中,存在不同的Cross Correlation,例如SiamFC使用的Cross Correlation如上圖a所示,SiamRPN使用的Cross Correlation如上圖b所示,本文使用的Cross Correlation如上圖c所示。
作者分析發現在RPN中,上述Cross Correlation方式約有20M參數,但是特徵提取器中大概只有4M參數,這會導致參數分佈不平衡,從而導致SiamRPN很難優化。
爲了解決這種分佈不平衡,作者提出Depth-wise Cross Correlation。它按照通道卷積,大幅減少參數,提高算法速度。
通過這種方式會使某一類別由特定的通道輸出,而其餘的通道會受到抑制

3.4 主要公式說明

a. 特徵融合
Sall=l=35αiSl,   Ball=l=35βiBlS_{all} = \sum^5_{l = 3} \alpha_i * S_l, \ \ \ B_{all} = \sum^5_{l = 3} \beta_i * B_l
SallS_{all}表示融合後的分類得分,BallB_{all}表示融合後的迴歸偏移

4. 實驗結果

4.1 消融實驗

在這裏插入圖片描述
在這裏插入圖片描述

4.2 VOT2018

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

4.3 OTB2015

在這裏插入圖片描述

4.4 VOT2018 long-term

在這裏插入圖片描述

4.5 UAV123

在這裏插入圖片描述

4.6 LaSOT

在這裏插入圖片描述

4.7 TrackingNet

在這裏插入圖片描述

5. 總結

該算法在SiamRPN的基礎上,通過引入spatial aware採樣策略(隨機偏移)緩解平移不變性問題,增加網絡深度,提升算法效果。OTB2015的AUC和Precision分別是0.696和0.914;VOT2018的EAO, Accuracy, Robustness, AO分別是0.414,0.6, 0.234,0.498;VOT2018(long term)的F-score是0.629;UAV123的AUC和Precision分別是0.613和0.807;LaSOT的AUC和PnormP_{norm}分別是0.496和0.569;TrackingNet的AUC,P和PnormP_{norm}分別是0733,0.694,0.8

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章