論文筆記Distractor-aware Siamese Networks for Visual Object Tracking

1. 標題及來源

Distractor-aware Siamese Networks for Visual Object Tracking, ECCV_2018

2. 閱讀目的

無

3. 領域

long term object tracking

4. 擬解決的問題

1. 大多數基於孿生網絡的跟蹤方法只能區分前景，當背景聚集在一起時，性能無法保證
2. 數據分佈不平衡，當跟蹤新類別時，定位框不準確
3. 孿生網絡不能在線更新參數，當出現巨大外貌變化時，會出現問題
4. 最近的孿生網絡執行局部搜索策略，不能處理full occlusion和out-of-view

5. 提出的方法

針對問題1：在脫機訓練時生成更多的語義對(semantics pairs)，然後在online tracking時顯式抑制這些判別器
針對問題2：將ImageNet檢測數據集和COCO檢測數據集中生成的圖片對用來訓練，同時使用數據增強技術；在訓練過程中加入semantic negative pairs(和跟蹤目標不相同的對象，可能來自同一視頻序列，也可能來自不同視頻序列)，加入這個可以防止在full occusion和out-of-view時發生類漂移
針對問題3：加入distractor-aware module
針對問題4：將局部搜素策略替換爲local-to-global search strategy

6. 結果

6.1 VOT的實驗結果

在VOT2016數據集上，該論文的基礎版本SiamRPN的效果是0.3441，與ECO(0.375)之間有一些差距。而ECO的效果比DaSiamRPN少了3.6%。DaSiamRPN遠超過其它算法。同時該算法的速度是160FPS，是C-COT的500倍，是ECO的20倍
在VOT2017數據集上，DaSiamRPN以0.326排名第一

從表中可以發現，DaSiamRPN的效果在所有的算法中，效果基本上是最好的。但是也存在一些問題，比如OTB-2015數據集中，DP的效果相對落後其它算法；在VOT2016數據集中，在魯棒性方面，效果略低於ECO算法，在VOT-2017中，該算法的魯棒性相對更差

6.2 UAV的實驗結果

UAV數據集：由低空無人機拍攝的視頻組成的數據集

從圖中可以發現，在long-term的視頻跟蹤中，DaSiamRPN的AUC分數是0.617，遠超過其它算法的得分

6.3 OTB的實驗結果

從表中可以發現，在OTB-2015數據集中，DaSiamRPN的OP(mean overlap precision)是最高的，但是它的DP(mean distance precision)相對較差，只能排在第四，與第一名差了3%。

6.4 消融實驗

從表中可以發現：

當使用檢測數據中的正樣本可以將EAO從0.344提高到0.368
當訓練時加入負樣本，預測時加入distractor-aware learning，兩者在VOT2016數據集上都能將算法的效果提升2%左右，在UAV20L數據集上都能提升1%-2%
當在算法中加入long-term tracking module模塊時，AUC從49.8%提升到了61.7%

7. 改進&存在的問題

1. 當背景複雜時，會產生類漂移現象，如下圖所示。當繼續預測時，會偏差得越來越多

2. 當背景變化十分頻繁，導致後面幀的背景與第一幀不同，這種情況下該算法可能無效，因爲該算法會利用背景信息提升算法的判別能力，但是當背景信息變化非常頻繁時，這種算法可能會無效。
3. 當進行long-term視頻跟蹤時，若長時間未出現目標，直到最後快結束的時候纔出現目標，會延長搜索時間，降低跟蹤器的速度。因爲使用了local-to-global的搜索策略
4. 當出現遮擋或者相似物干擾問題時，會產生類漂移

8. 可借鑑的點

1. 將背景作爲一種信息，進行判別
2. 使用不同種類正樣本和含有目標(非target)的負樣本進行訓練，學習強有力的特徵表達

non-semantic: not real object, just background
3. distractor-aware module

對每幀都產生 $17*17*5$ 個proposal
使用NMS減少多餘的proposal，
將分數最高的作爲Zt，剩下的如果大於設定的閾值，就會被認爲是干擾項d
創建下面集合D，h表示閾值，Zt表示第t幀中選定的target。|D|=n
$D = \{\forall d_i \in D,\ f(z,\ d_i) > h \cap d_i \neq z_t\}$
引入新的distractor-aware(干擾感知)目標函數，對和target相似度最高的前k個進行重新排序，最終選定的目標認爲是q

第一個α表示權重係數，控制干擾項學習的影響，αi控制每個干擾項的影響。可以認爲是神經網絡中的已經學習完成的權重
使用下面公式加速干擾項學習的目標.

4. local-to-global搜索策略
設置一個固定的常量，每搜索失敗一次時，都將搜索局域按照這個常量進行擴大。例如，原來的搜索局域是55，常量是2，當搜索失敗一次時，搜索區域會變成77；當再次搜索失敗時，搜索區域會變成9*9

9. 知識補充

無

論文筆記Distractor-aware Siamese Networks for Visual Object Tracking

論文筆記Distractor-aware Siamese Networks for Visual Object Tracking

1. 標題及來源

2. 閱讀目的

3. 領域

4. 擬解決的問題

5. 提出的方法

6. 結果

6.1 VOT的實驗結果

6.2 UAV的實驗結果

6.3 OTB的實驗結果

6.4 消融實驗

7. 改進&存在的問題

8. 可借鑑的點

9. 知識補充

python中reshape後數據排列方式

論文筆記Visualizing and understanding convolutional networks

論文筆記Deep visual tracking: Review and experimental comparison

矩陣論(一)——建立基本概念

論文筆記D3S – A Discriminative Single Shot Segmentation Tracker

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結