論文筆記：Fully-Convolutional Siamese Networks

原創

2020-06-27 11:10

一、基本信息

標題：Fully-Convolutional Siamese Networks for Object Tracking
時間：2016
論文領域：目標跟蹤、深度學習
引用格式：Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking[C]//European conference on computer vision. Springer, Cham, 2016: 850-865.

二、研究背景

傳統跟蹤問題通過在線學習，使用視頻本身作爲訓練數據。模型學習豐富程度有限。提到使用CNN提取特徵，在不知道最終對象前，需要通過隨機梯度擬合權重，速度受到限制。
學習自身特徵：TLD、Struck、KCF。數據有限，導致模型有限。
深度學習：訓練數據有限、實時性不夠。
預訓練：使用淺層方法，沒有發揮端到端優勢
SGD：時效性不行

三、創新點

使用Siamese架構，它對於搜索圖像是完全卷積的:通過雙線性層計算兩個輸入的互相關聯，實現了密集而高效的滑動窗口評估。

Deep similarity learning for tracking

有這麼一個函數 $f(z, x)$ ，它可以計算兩張圖中描述相同對象得分。通過使用Siamese網絡， $f(z, x)=g(\varphi(z), \varphi(x))$ ，z和x分別輸入兩幀，經過 $\varphi$ 變換，最後可以使用相似函數g計算得分f。

Fully-convolutional Siamese architecture

具體得分計算公式：
$f(z, x)=\varphi(z) * \varphi(x)+b \mathbb{1}$
$\varphi$ 是一個全卷積網絡，可以兼容不同輸入大小，z是追蹤對象，x是需要判別的幀。z通過 $\varphi$ 後得到6x6x128特徵圖，把它作爲卷積核，應用到x通過 $\varphi$ 後得到的22x22x128特徵圖上。結果就是得到17x17的得分圖（尺寸取決於輸入x和z的大小）。這樣通過最後的卷積計算了255x255中17個區域的得分。
假設得到一個點的得分最高，那麼如何確定真實位置，具體做法是：取中心+中心偏移量x步長

損失函數

$\ell(y, v)=\log (1+\exp (-y v))$
$y \in\{+1,-1\}$ 代表代表真實標籤值， $v: \mathcal{D} \rightarrow \mathbb{R}$ ，對於一個得分地圖的點y和v的計算如上，當v很大時，且真實標籤爲1，則損失小，否則損失大。相反同理。
對於整個得分地圖（就是最後輸出的17x17圖）,取了平均
$L(y, v)=\frac{1}{|\mathcal{D}|} \sum_{u \in \mathcal{D}} \ell(y[u], v[u])$
使用SGD：
$\arg \min _{\theta} \underset{(z, x, y)}{\mathbb{E}} L(y, f(z, x ; \theta))$

確定訓練對

只要x和z在視頻裏相隔不超過T幀，那麼都可以作爲一個訓練對。
圖片要進行歸一化，但是不能破壞長寬比，而是用背景補充。

前面提到，訓練時數據輸入網絡前要先把圖像固定到特定的尺寸，論文裏使用的尺寸爲：模板127×127，待搜索圖像255×255。固定圖像尺寸的目的是使得跟蹤的目標始終處於視頻的正中心，如圖2所示，這些圖片截取自視頻中不同的兩幀。
這裏不是簡單的使用修剪或拉伸來處理的，如果這樣做的話會丟失掉原圖的信息。這裏使用的做法是，如果bounding box的尺寸爲(w,h)，填充的邊緣爲p，那麼縮放係數s的選擇依據是使得縮放後的框框的面積等於一個固定的常數，即：
s(w+2p)×s(h+2p)=A
文中使用的A是127×127，圖像邊緣的填充爲p=(w+h)/4
————————————————
版權聲明：本文爲CSDN博主「LCCFlccf」的原創文章，遵循CC 4.0 BY-SA版權協議，轉載請附上原文出處鏈接及本聲明。
原文鏈接：https://blog.csdn.net/LCCFlccf/article/details/89072704

至於y怎麼確定呢，也就是說什麼叫做正樣本什麼叫做負樣本呢？定義如下：

$y[u]=\left\{\begin{array}{ll} +1 & \text { if } k\|u-c\| \leq R \\ -1 & \text { otherwise } \end{array}\right.$

c是圖片中心，k是網絡最終總步長，如果距離中心不是很遠那麼是正樣本，否則是負樣本。

四、實驗結果

在準確度不錯的情況下，速度達到當時最先進水平

五、結論與思考

作者結論

在這項工作中，我們背離了傳統的在線學習跟蹤方法，並展示了一種替代方法，該方法側重於在離線階段學習強嵌入內容。與它們在分類設置中的使用不同，我們證明了對於跟蹤應用，Siamese完全卷積深度網絡能夠更有效地使用可用數據。這反映在測試時，通過執行有效的空間搜索，也反映在訓練時，每個子窗口有效地代表一個有用的樣本，幾乎沒有額外的成本。實驗表明，深度嵌入爲在線跟蹤器提供了豐富的特性來源，並使簡單的測試時間策略能夠很好地執行。我們相信，這種方法是對更復雜的在線跟蹤方法的補充，並期待未來的工作能更徹底地探索這種關係

總結

本文提出使用典型Siamese Networks分別提取模板和待檢測圖，然後將模板的特徵圖作爲卷積核，與待檢測特徵圖進行卷積。

思考

那麼這種做法是否能應用在目標識別領域？

但是由於本文的孿生網絡是以端到端的形式學習出來的，那麼可以認爲，它訓練出來的這個特徵提取器，提取的特徵更適合做卷積來獲得最後的相似度得分圖。

參考

【論文筆記】目標跟蹤算法之Siamese-FC
Fully-Convolutional Siamese Networks for Object Tracking基於全卷積孿生網絡的目標跟蹤算法SiameseFC

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

論文筆記：Fully-Convolutional Siamese Networks

一、基本信息

二、研究背景

三、創新點

Deep similarity learning for tracking

Fully-convolutional Siamese architecture

損失函數

確定訓練對

四、實驗結果

五、結論與思考

作者結論

總結

思考

參考

Window 安裝 Python 失敗 0x80070643，發生嚴重錯誤

《最新出爐》系列入門篇-Python+Playwright自動化測試-41-錄製視頻

cv論文筆記（動作識別1）：Convolutional Two-Stream Network Fusion for Video Action Recognition

數字圖像處理：自適應局部gamma校正

論文復現：Unsupervised Learning of Depth and Ego-Motion from Video（SfMLearner）

論文筆記：Unsupervised Learning of Depth and Ego-Motion from Video（無監督深度預測系列4：PoseCNN方法）

cv論文筆記：Semi-Supervised Deep Learning for Monocular Depth Map Prediction（無監督深度預測系列3：半監督方法）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結