目標跟蹤論文(一):SiamFC孿生網絡

Fully-Convolutional Siamese Networks for Object Tracking

項目網頁 http://www.robots.ox.ac.uk/~luca/siamese-fc.html
tensorflow+python代碼:https://github.com/www0wwwjs1/tensorflow-siamese-fc

一、背景簡介

傳統的目標跟蹤算法,要麼用相關濾波,如TLD、Struck、KCF等,只能在線學習(用當前視頻中的數據),限制了學習模型的豐富程度;要麼用SGD方法(DeepLearning)對網絡進行微調,雖然能達到最有效果,但會使速度下降,做不到實時跟蹤。本論文提出一種新的全卷積孿生網絡(SiamFC)作爲基本的跟蹤算法,這個網絡在ILSVRC15的目標跟蹤視頻數據集上進行端到端的訓練。跟蹤器在幀率上超過了實時性要求,儘管結構非常簡單,但在多個benchmark上達到最優的性能。
本文的工作:
 (1)訓練一個Siam網絡,利用全卷積的結構,使得輸入大小不受限制。來定位一個更大的搜索圖像中,與範例圖像最匹配的區域。
 (2)利用雙線性層計算了滑動窗口的兩個輸入之間的相互關係,實現了密集高效的滑動窗口評價(score map)。
 (3)巧妙使用ILSVRC15的數據集(正常的tracking訓練數據比較匱乏)。

二、算法原理

在這裏插入圖片描述
  如上爲該算法的模型圖——SiamFC網絡,圖中z代表的是模板圖像,算法中使用的是第一幀的groundtruth;x代表的是search region,代表在後面的待跟蹤幀中的候選框搜索區域;經過φ恆等變換,使用如下函數:
在這裏插入圖片描述
  輸出一個的相似度的score map分值圖像(上圖的17×17×1)。即算法原理爲:比較搜索區域和目標模板的相似度,最後得到搜索區域的score map,將這種逐點平移匹配計算相似度的方法看成是一種卷積,然後在卷積結果中找到相似度值最大的點,作爲新的目標的中心,其對應於搜索區域中子窗口的區域(上圖的彩色區域),則該區域即爲目標區域。
  上圖所畫的ϕ其實是CNN中的一部分,並且兩個ϕ的網絡結構是一樣的,這是一種典型的孿生神經網絡,並且在整個模型中只有conv層和pooling層,因此這也是一種典型的全卷積(fully-convolutional)神經網絡。
網絡的卷積層結構如下:
在這裏插入圖片描述
  該結構實際上與2012年的AlexNet類似,使用雙GPU的形式,在第三層出還同時使用了兩個GPU,其中前兩個卷積層後面都接有最大池化層,前四層卷積層都使用了ReLU激勵函數。訓練時,每個ReLU層前都使用了BN層(batch normalization),降低過擬合的風險。

三、具體實現

1.網絡正負樣本的確定: 在輸入搜索圖像上,只要和目標的距離不超過R,那就算正樣本,否則就是負樣本,用公式表示如下:
在這裏插入圖片描述
其中,.k爲網絡的總步長,c爲目標的中心,u爲score map的所有位置,R爲定義的半徑。
2.損失函數: 本文算法爲了構造有效的損失函數,對搜索區域的位置點進行了正負樣本的區分,即目標一定範圍內的點作爲正樣本,這個範圍外的點作爲負樣本,例如圖1中最右側生成的score map中,紅色點即正樣本,藍色點爲負樣本,他們都對應於search region中的紅色矩形區域和藍色矩形區域。文章採用的是logistic loss,具體的損失函數形式如下:
在這裏插入圖片描述
其中v是score map中每個點真實值,y∈{+1, −1}是這個點所對應的標籤。
上面的是score map中每個點的loss值,而對於score map整體的loss,則採用的是全部點的loss的均值。即:
在這裏插入圖片描述
這裏的u∈D代表score map中的位置。
3.數據集處理:
(1)樣本圖像大小 127×127,搜索圖像大小255×255
(2)圖像的縮放與填充如式所示:s(w+2p)×s(h+2p)=A。
(3)從ILSVRC15的4500個視頻中選出4417個視頻,超過2,000,000個標註的跟蹤框作爲訓練集。

四、實驗

(1).實現細節:
Training
1.梯度下降採用SGD
2.用高斯分佈初始化參數
3.訓練50個epoch,每個epoch有50,000個樣本對
4.mini-batch等於8
5.學習率從10-2衰減到10-5
Tracking
1.初始目標的特徵提取 φ(z)只計算一次
2.用雙三次插值將score map從 17×17上採樣到 272×272
3.對目標進行5種尺度來搜索(1.025{−2,−1,0,1,2})
4.目標圖像在線不更新,因爲對於CNN提取的是高層語義特徵,不會像HOG或CN這些淺層特徵苛求紋理相似度。(如跟蹤目標是人,不論躺着或站着,CNN都能“認出來”這是人,而紋理特徵如HOG或conv1可能完全無法匹配)
5.跟蹤效率:3尺度86fps,5尺度58fps。
(2).實驗結果:
The OTB-13 benchmark:
在這裏插入圖片描述
The VOT-14 results:
在這裏插入圖片描述
The VOT-15 results:
在這裏插入圖片描述
發現SiamFC和SiamFc-3s均排名較高,其中前者可達58fps,後者可達86fps。具體見表:
在這裏插入圖片描述
作者後面還通過不斷改變數據集大小來觀察測試效果的不同,發現數據集越大,目標預測效果越好結果見表:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章