論文筆記:Fully-Convolutional Siamese Networks

一、基本信息

標題:Fully-Convolutional Siamese Networks for Object Tracking
時間:2016
論文領域:目標跟蹤、深度學習
引用格式:Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking[C]//European conference on computer vision. Springer, Cham, 2016: 850-865.

二、研究背景

傳統跟蹤問題通過在線學習,使用視頻本身作爲訓練數據。模型學習豐富程度有限。提到使用CNN提取特徵,在不知道最終對象前,需要通過隨機梯度擬合權重,速度受到限制。
學習自身特徵:TLD、Struck、KCF。數據有限,導致模型有限。
深度學習:訓練數據有限、實時性不夠。
預訓練:使用淺層方法,沒有發揮端到端優勢
SGD:時效性不行

三、創新點

使用Siamese架構,它對於搜索圖像是完全卷積的:通過雙線性層計算兩個輸入的互相關聯,實現了密集而高效的滑動窗口評估。

Deep similarity learning for tracking

有這麼一個函數f(z,x)f(z, x),它可以計算兩張圖中描述相同對象得分。通過使用Siamese網絡,f(z,x)=g(φ(z),φ(x))f(z, x)=g(\varphi(z), \varphi(x)),z和x分別輸入兩幀,經過φ\varphi變換,最後可以使用相似函數g計算得分f。

Fully-convolutional Siamese architecture

在這裏插入圖片描述
具體得分計算公式:
f(z,x)=φ(z)φ(x)+b1f(z, x)=\varphi(z) * \varphi(x)+b \mathbb{1}
φ\varphi是一個全卷積網絡,可以兼容不同輸入大小,z是追蹤對象,x是需要判別的幀。z通過φ\varphi後得到6x6x128特徵圖,把它作爲卷積核,應用到x通過φ\varphi後得到的22x22x128特徵圖上。結果就是得到17x17的得分圖(尺寸取決於輸入x和z的大小)。這樣通過最後的卷積計算了255x255中17個區域的得分。
假設得到一個點的得分最高,那麼如何確定真實位置,具體做法是:取中心+中心偏移量x步長

損失函數

(y,v)=log(1+exp(yv))\ell(y, v)=\log (1+\exp (-y v))
y{+1,1}y \in\{+1,-1\}代表代表真實標籤值,v:DRv: \mathcal{D} \rightarrow \mathbb{R},對於一個得分地圖的點y和v的計算如上,當v很大時,且真實標籤爲1,則損失小,否則損失大。相反同理。
對於整個得分地圖(就是最後輸出的17x17圖),取了平均
L(y,v)=1DuD(y[u],v[u])L(y, v)=\frac{1}{|\mathcal{D}|} \sum_{u \in \mathcal{D}} \ell(y[u], v[u])
使用SGD:
argminθE(z,x,y)L(y,f(z,x;θ))\arg \min _{\theta} \underset{(z, x, y)}{\mathbb{E}} L(y, f(z, x ; \theta))

確定訓練對

只要x和z在視頻裏相隔不超過T幀,那麼都可以作爲一個訓練對。
圖片要進行歸一化,但是不能破壞長寬比,而是用背景補充。

在這裏插入圖片描述

前面提到,訓練時數據輸入網絡前要先把圖像固定到特定的尺寸,論文裏使用的尺寸爲:模板127×127,待搜索圖像255×255。固定圖像尺寸的目的是使得跟蹤的目標始終處於視頻的正中心,如圖2所示,這些圖片截取自視頻中不同的兩幀。
這裏不是簡單的使用修剪或拉伸來處理的,如果這樣做的話會丟失掉原圖的信息。這裏使用的做法是,如果bounding box的尺寸爲(w,h),填充的邊緣爲p,那麼縮放係數s的選擇依據是使得縮放後的框框的面積等於一個固定的常數,即:
s(w+2p)×s(h+2p)=A
文中使用的A是127×127,圖像邊緣的填充爲p=(w+h)/4
————————————————
版權聲明:本文爲CSDN博主「LCCFlccf」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/LCCFlccf/article/details/89072704

至於y怎麼確定呢,也就是說什麼叫做正樣本什麼叫做負樣本呢?定義如下:

y[u]={+1 if kucR1 otherwise y[u]=\left\{\begin{array}{ll} +1 & \text { if } k\|u-c\| \leq R \\ -1 & \text { otherwise } \end{array}\right.

c是圖片中心,k是網絡最終總步長,如果距離中心不是很遠那麼是正樣本,否則是負樣本。

四、實驗結果

在這裏插入圖片描述
在準確度不錯的情況下,速度達到當時最先進水平

五、結論與思考

作者結論

在這項工作中,我們背離了傳統的在線學習跟蹤方法,並展示了一種替代方法,該方法側重於在離線階段學習強嵌入內容。與它們在分類設置中的使用不同,我們證明了對於跟蹤應用,Siamese完全卷積深度網絡能夠更有效地使用可用數據。這反映在測試時,通過執行有效的空間搜索,也反映在訓練時,每個子窗口有效地代表一個有用的樣本,幾乎沒有額外的成本。實驗表明,深度嵌入爲在線跟蹤器提供了豐富的特性來源,並使簡單的測試時間策略能夠很好地執行。我們相信,這種方法是對更復雜的在線跟蹤方法的補充,並期待未來的工作能更徹底地探索這種關係

總結

本文提出使用典型Siamese Networks分別提取模板和待檢測圖,然後將模板的特徵圖作爲卷積核,與待檢測特徵圖進行卷積。

思考

那麼這種做法是否能應用在目標識別領域?

但是由於本文的孿生網絡是以端到端的形式學習出來的,那麼可以認爲,它訓練出來的這個特徵提取器,提取的特徵更適合做卷積來獲得最後的相似度得分圖。

參考

【論文筆記】目標跟蹤算法之Siamese-FC
Fully-Convolutional Siamese Networks for Object Tracking基於全卷積孿生網絡的目標跟蹤算法SiameseFC

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章