論文筆記Distractor-aware Siamese Networks for Visual Object Tracking

1. 標題及來源

Distractor-aware Siamese Networks for Visual Object Tracking, ECCV_2018

2. 閱讀目的

3. 領域

long term object tracking

4. 擬解決的問題

1. 大多數基於孿生網絡的跟蹤方法只能區分前景,當背景聚集在一起時,性能無法保證
2. 數據分佈不平衡,當跟蹤新類別時,定位框不準確
3. 孿生網絡不能在線更新參數,當出現巨大外貌變化時,會出現問題
4. 最近的孿生網絡執行局部搜索策略,不能處理full occlusion和out-of-view
在這裏插入圖片描述

5. 提出的方法

針對問題1:在脫機訓練時生成更多的語義對(semantics pairs),然後在online tracking時顯式抑制這些判別器
針對問題2:將ImageNet檢測數據集和COCO檢測數據集中生成的圖片對用來訓練,同時使用數據增強技術;在訓練過程中加入semantic negative pairs(和跟蹤目標不相同的對象,可能來自同一視頻序列,也可能來自不同視頻序列),加入這個可以防止在full occusion和out-of-view時發生類漂移
針對問題3:加入distractor-aware module
針對問題4:將局部搜素策略替換爲local-to-global search strategy

6. 結果

6.1 VOT的實驗結果

在這裏插入圖片描述
在VOT2016數據集上,該論文的基礎版本SiamRPN的效果是0.3441,與ECO(0.375)之間有一些差距。而ECO的效果比DaSiamRPN少了3.6%。DaSiamRPN遠超過其它算法。同時該算法的速度是160FPS,是C-COT的500倍,是ECO的20倍
在VOT2017數據集上,DaSiamRPN以0.326排名第一

在這裏插入圖片描述
從表中可以發現,DaSiamRPN的效果在所有的算法中,效果基本上是最好的。但是也存在一些問題,比如OTB-2015數據集中,DP的效果相對落後其它算法;在VOT2016數據集中,在魯棒性方面,效果略低於ECO算法,在VOT-2017中,該算法的魯棒性相對更差

6.2 UAV的實驗結果

UAV數據集:由低空無人機拍攝的視頻組成的數據集
在這裏插入圖片描述
從圖中可以發現,在long-term的視頻跟蹤中,DaSiamRPN的AUC分數是0.617,遠超過其它算法的得分

6.3 OTB的實驗結果

在這裏插入圖片描述
從表中可以發現,在OTB-2015數據集中,DaSiamRPN的OP(mean overlap precision)是最高的,但是它的DP(mean distance precision)相對較差,只能排在第四,與第一名差了3%。

6.4 消融實驗

在這裏插入圖片描述
從表中可以發現:

  1. 當使用檢測數據中的正樣本可以將EAO從0.344提高到0.368
  2. 當訓練時加入負樣本,預測時加入distractor-aware learning,兩者在VOT2016數據集上都能將算法的效果提升2%左右,在UAV20L數據集上都能提升1%-2%
  3. 當在算法中加入long-term tracking module模塊時,AUC從49.8%提升到了61.7%

7. 改進&存在的問題

1. 當背景複雜時,會產生類漂移現象,如下圖所示。當繼續預測時,會偏差得越來越多
在這裏插入圖片描述
2. 當背景變化十分頻繁,導致後面幀的背景與第一幀不同,這種情況下該算法可能無效,因爲該算法會利用背景信息提升算法的判別能力,但是當背景信息變化非常頻繁時,這種算法可能會無效。
3. 當進行long-term視頻跟蹤時,若長時間未出現目標,直到最後快結束的時候纔出現目標,會延長搜索時間,降低跟蹤器的速度。因爲使用了local-to-global的搜索策略
4. 當出現遮擋或者相似物干擾問題時,會產生類漂移
在這裏插入圖片描述

8. 可借鑑的點

1. 將背景作爲一種信息,進行判別
2. 使用不同種類正樣本和含有目標(非target)的負樣本進行訓練,學習強有力的特徵表達
在這裏插入圖片描述
non-semantic: not real object, just background在這裏插入圖片描述
3. distractor-aware module

  1. 對每幀都產生1717517*17*5個proposal
  2. 使用NMS減少多餘的proposal,
  3. 將分數最高的作爲Zt,剩下的如果大於設定的閾值,就會被認爲是干擾項d
  4. 創建下面集合D,h表示閾值,Zt表示第t幀中選定的target。|D|=n
    D={diD, f(z, di)>hdizt}D = \{\forall d_i \in D,\ f(z,\ d_i) > h \cap d_i \neq z_t\}
  5. 引入新的distractor-aware(干擾感知)目標函數,對和target相似度最高的前k個進行重新排序,最終選定的目標認爲是q
    在這裏插入圖片描述
    第一個α表示權重係數,控制干擾項學習的影響,αi控制每個干擾項的影響。可以認爲是神經網絡中的已經學習完成的權重
  6. 使用下面公式加速干擾項學習的目標.
    在這裏插入圖片描述

4. local-to-global搜索策略
設置一個固定的常量,每搜索失敗一次時,都將搜索局域按照這個常量進行擴大。例如,原來的搜索局域是55,常量是2,當搜索失敗一次時,搜索區域會變成77;當再次搜索失敗時,搜索區域會變成9*9

9. 知識補充

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章