Fully-Convolutional Siamese Networks for Object Tracking

項目網頁 http://www.robots.ox.ac.uk/~luca/siamese-fc.html
tensorflow+python代碼：https://github.com/www0wwwjs1/tensorflow-siamese-fc

一、背景簡介

傳統的目標跟蹤算法，要麼用相關濾波，如TLD、Struck、KCF等，只能在線學習（用當前視頻中的數據），限制了學習模型的豐富程度；要麼用SGD方法（DeepLearning）對網絡進行微調，雖然能達到最有效果，但會使速度下降，做不到實時跟蹤。本論文提出一種新的全卷積孿生網絡（SiamFC）作爲基本的跟蹤算法，這個網絡在ILSVRC15的目標跟蹤視頻數據集上進行端到端的訓練。跟蹤器在幀率上超過了實時性要求，儘管結構非常簡單，但在多個benchmark上達到最優的性能。
本文的工作：
　（1）訓練一個Siam網絡，利用全卷積的結構，使得輸入大小不受限制。來定位一個更大的搜索圖像中，與範例圖像最匹配的區域。
　（2）利用雙線性層計算了滑動窗口的兩個輸入之間的相互關係，實現了密集高效的滑動窗口評價（score map）。
　（3）巧妙使用ILSVRC15的數據集（正常的tracking訓練數據比較匱乏）。

二、算法原理

　　如上爲該算法的模型圖——SiamFC網絡，圖中z代表的是模板圖像，算法中使用的是第一幀的groundtruth；x代表的是search region，代表在後面的待跟蹤幀中的候選框搜索區域；經過φ恆等變換，使用如下函數：

　　輸出一個的相似度的score map分值圖像（上圖的17×17×1）。即算法原理爲：比較搜索區域和目標模板的相似度，最後得到搜索區域的score map，將這種逐點平移匹配計算相似度的方法看成是一種卷積，然後在卷積結果中找到相似度值最大的點，作爲新的目標的中心，其對應於搜索區域中子窗口的區域（上圖的彩色區域），則該區域即爲目標區域。
　　上圖所畫的ϕ其實是CNN中的一部分，並且兩個ϕ的網絡結構是一樣的，這是一種典型的孿生神經網絡，並且在整個模型中只有conv層和pooling層，因此這也是一種典型的全卷積（fully-convolutional）神經網絡。
網絡的卷積層結構如下：

　　該結構實際上與2012年的AlexNet類似，使用雙GPU的形式，在第三層出還同時使用了兩個GPU，其中前兩個卷積層後面都接有最大池化層，前四層卷積層都使用了ReLU激勵函數。訓練時，每個ReLU層前都使用了BN層（batch normalization），降低過擬合的風險。

三、具體實現

1.網絡正負樣本的確定： 在輸入搜索圖像上，只要和目標的距離不超過R，那就算正樣本，否則就是負樣本，用公式表示如下：

其中，.k爲網絡的總步長，c爲目標的中心，u爲score map的所有位置，R爲定義的半徑。
2.損失函數： 本文算法爲了構造有效的損失函數，對搜索區域的位置點進行了正負樣本的區分，即目標一定範圍內的點作爲正樣本，這個範圍外的點作爲負樣本，例如圖1中最右側生成的score map中，紅色點即正樣本，藍色點爲負樣本，他們都對應於search region中的紅色矩形區域和藍色矩形區域。文章採用的是logistic loss，具體的損失函數形式如下：

其中v是score map中每個點真實值，y∈{+1, −1}是這個點所對應的標籤。
上面的是score map中每個點的loss值，而對於score map整體的loss，則採用的是全部點的loss的均值。即：

這裏的u∈D代表score map中的位置。
3.數據集處理：
（1）樣本圖像大小 127×127，搜索圖像大小255×255
（2）圖像的縮放與填充如式所示：s(w+2p)×s(h+2p)=A。
（3）從ILSVRC15的4500個視頻中選出4417個視頻，超過2,000,000個標註的跟蹤框作爲訓練集。

四、實驗

（1）.實現細節：
Training
1.梯度下降採用SGD
2.用高斯分佈初始化參數
3.訓練50個epoch，每個epoch有50,000個樣本對
4.mini-batch等於8
5.學習率從10-2衰減到10-5
Tracking
1.初始目標的特徵提取 φ(z)只計算一次
2.用雙三次插值將score map從 17×17上採樣到 272×272
3.對目標進行5種尺度來搜索（1.025{−2,−1,0,1,2}）
4.目標圖像在線不更新，因爲對於CNN提取的是高層語義特徵，不會像HOG或CN這些淺層特徵苛求紋理相似度。（如跟蹤目標是人，不論躺着或站着，CNN都能“認出來”這是人，而紋理特徵如HOG或conv1可能完全無法匹配）
5.跟蹤效率：3尺度86fps，5尺度58fps。
（2）.實驗結果：
The OTB-13 benchmark：

The VOT-14 results：

The VOT-15 results：

發現SiamFC和SiamFc-3s均排名較高，其中前者可達58fps，後者可達86fps。具體見表：

作者後面還通過不斷改變數據集大小來觀察測試效果的不同，發現數據集越大，目標預測效果越好結果見表：