論文筆記D3S – A Discriminative Single Shot Segmentation Tracker

1. 論文標題及來源

D3S – A Discriminative Single Shot Segmentation Tracker, CVPR, 2020
下載地址:https://arxiv.org/abs/1911.08862

2. 擬解決問題

a. SiamMask未將localization和segmentation聯合在一起提升魯棒性
b. SiamRPN中固定的目標不能適應動態變化的場景

3. 解決方法

3.1 算法流程

在這裏插入圖片描述
a. 將第一幀輸入骨幹網絡提取特徵
b. 將提取的特徵分別輸入GIM模塊和GEM模塊,通過GIM模塊得到前景和背景信息,通過GEM模塊得到定位信息
c. 將三者通過Concat融合,然後輸入refinement得到第一幀mask和bounding box
d. 在跟蹤時,使用骨幹網絡提取待跟蹤幀搜索區域的特徵
e. 將提取的特徵輸入GIM模塊,通過與第一幀搜索區域比較得到像素級的前景相似度和背景相似度
f. 取每個像素相似度最高的前K個,然後分別求平均得到該幀的前景相似度和背景相似度
g. 重複c即可得到該幀的mask和bounding box

GIM模塊GEM模塊和refinement模塊將在後續詳細介紹

3.2 GIM

GIM表示geometrically invariant model(幾何不變模型)。它的網絡結構圖如下
在這裏插入圖片描述
a.將骨幹網絡提取的特徵輸入該模塊
b. 通過1x1和3x3卷積使特徵適應該模塊
c. 在第一幀target的每個像素上提取分割特徵向量作爲XFX^F,在第一幀target附近的區域(搜索區域中非target部分)的每個像素上提取分割特徵向量作爲XBX^B
d. 在跟蹤時提取待跟蹤幀search region的像素級特徵,記爲XGIMX_{GIM}
e. 通過XGIMX_{GIM}計算前景相似度和背景相似度
f. 取每個像素相似度最高的前K個,然後分別求平均得到該幀的前景相似度和背景相似度

該模塊與VideoMatch: Matching based Video Object Segmentation中的軟匹配層(見下圖)思想非常相似,它的計算方式如下圖所示(和原文不同的是,本文中的K取3)。
在這裏插入圖片描述
參考鏈接:https://blog.csdn.net/zxyhhjs2017/article/details/103458809

3.3 GEM

GEM表示geometrically constrained Euclidean model。它的網絡結構如下所示。
在這裏插入圖片描述
a. 將骨幹網絡提取的特徵通過1x1卷積降維
b. 將降維後的特徵使用相關濾波思想得到響應圖
c. 計算響應圖中最大響應的位置到搜索區域中剩餘像素的歐式距離,得到目標位置通道

此處的DCF模塊借鑑Martin的ATOM。

3.4 Refinement

GEM模塊能提供一個魯棒但是不準確的目標估計,GIM模塊能提供一個更多細節但是判別性更差的目標表示;此外,這些特徵的分辨率很低,所以提出了refinement模塊。
在這裏插入圖片描述
a. 將GIM和GEM模塊輸出的特徵通過Concat融合
b. 使用3x3卷積固定其channel爲64
c. 然後通過上採樣模塊提高分辨率,並與骨幹網絡中的特徵通過相加得到融合特徵
d. 重複c,最後通過Softmax得到mask

3.5 bounding box fitting module

使用橢圓代替矩形框。做法如下:
a. 只保留mask中最大連接部分
b. 通過最小二乘法將橢圓擬合到其輪廓上
c. 使用coordinate descent優化下列函數,從而得到精準的位置估計
IoUMOD=NIN+αNIN+NIN++NOUT+IoU^{MOD} = \frac{N^+_{IN}}{\alpha N^-_{IN} + N^+_{IN} + N^+_{OUT}}
其中N表示像素點數量,+前景,-表示背景,IN表示在矩形框內,OUT表示在矩形框外,例如NIN+N^+_{IN}表示矩形框內屬於前景像素點的數量,NOUT+N^+_{OUT}表示矩形框外屬於前景像素點的數量,NINN^-_{IN}表示矩形框內屬於背景像素點的數量

該模塊是一個trick,耗時2ms,但是收益較大

4. 實驗結果

4.1 VOT2016

在這裏插入圖片描述

4.2 VOT2018

在這裏插入圖片描述

4.3 GOT-10k

在這裏插入圖片描述

4.4 TrackingNet

在這裏插入圖片描述

4.5 消融實驗

在這裏插入圖片描述
橢圓fitting起關鍵作用(3.5節): 如果這套算法去掉最後的橢圓fitting的部分,僅僅採用旋轉最小bounding box的形式,結果將下降4.5個百分點(0.489 vs 0.444),如果在分割結果上直接採用垂直bounding box,結果與採用旋轉橢圓fitting框相比下降9.1個百分點(0.489 vs 0.398),可想而知,旋轉橢圓fitting矩形框的效果是多麼好了。
ATOM在線跟蹤魯棒性尤爲關鍵:如果去掉ATOM定位分支,算法的Robustness將變得極差,EAO結果下降20幾個百分點,可想而知,定位在整套算法中的地位。

4.6 DAVIS

在這裏插入圖片描述

5. 總結

該算法將目標跟蹤與實例分割相結合,利用骨幹網絡提取特徵,然後通過GIM模塊輸出前景和背景信息,通過GEM模塊輸出大致的位置信息,然後將三者通過refine模塊進行上採樣,最終輸出mask。VOT2016數據集的EAO, Accuracy, Robustness分別是0.493, 0.66, 0.131;VOT2018數據集的EAO, Accuracy, Robustness分別是0.48, 0.64, 0.15;GOT-10k的AO, SR0.75SR_{0.75}, SR0.5SR_{0.5}分別是59.7, 46.2, 67.6;TrackingNet的AUC, Prec, PrecNPrec_N分別是72.8, 66.4, 76.8。該算法的性能非常好。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章