Siamese-fc孿生網絡目標跟蹤

全名:Fully-Convolutional Siamese Networks for Object Tracking

論文摘自ECCV Workshop 2016,由Luca BertinettoJack ValmadreJo ̃ao F. Henriques、Andrea Vedaldi與Philip H. S. Torr撰寫,它是Jo ̃ao F. Henriques繼KCF之後又一大作。

摘要

傳統算法使用視頻本身作爲唯一的訓練數據限制了模型豐富性。作者利用深度卷積網絡,爲了避免影響速度,在線進行隨機梯度下降以適應網絡權重。

提出思路:使用ILSVRC15數據集,訓練一個端到端的全卷積Siamese網絡,用於目標檢測

特點:(1)超實時的幀速率運行;(2)極其簡單;(3)在多個基準測試中實現了最佳的性能。

1 前言

傳統算法可以跟蹤任意對象,故不可能有收集好的數據和訓練好的檢測器。比如:TLD [2],Struck [3]和KCF [4]等方法。目前計算機視覺中的其他問題越來越普遍地採用從大型監督數據集訓練的深度卷積網絡(conv-nets),但監督數據稀缺實時操作約束阻礙了深度學習在該方法(每個視頻訓練一個檢測模型)中的應用。最近的一些工作使用預訓練的深度卷積來克服上述限制:

法一:使用網絡的內部表示作爲特徵應用於“淺層”方法(例如相關濾波器),但並未充分利用端到端訓練方法;

法二:用SGD(隨機梯度下降)來微調網絡的多個層,雖然實現結果很好卻不實時

作者提出,在初始離線訓練階段訓練深度卷積網絡以解決更一般的相似性學習問題,然後在跟蹤期間簡單地在線評估該網絡。使得在速度遠遠超過幀速要求的現代跟蹤基準測試中表現很好。本文的主要貢獻是

(1)我們訓練一個孿生(Siamese)網絡,在更大的候選圖像中定位目標

(2)創建了一種新的Siamese結構,它對候選圖像進行全卷積:使用計算其兩個輸入互相關的雙線性層實現密集而有效的滑窗評估

2 訓練

設學習函數f(z,x),即將示例圖像z與相同大小的候選圖像x進行比較,相同則返回高分。

測試所有可能位置,並選擇與目標之前外觀具有最大程度相似的候選塊x。使用目標的第一幀Bounding-box作爲變量z,從而學習訓練函數f。

更進一步,將深度卷積網絡作爲函數f。Siamese網絡對輸入x、z用變換φ,定義:f(z,x)= g(φ(z),φ(x))用函數g組合輸入表示

深度Siamese卷積網絡先前已應用於面部驗證[18,20,14],關鍵點描述學習[19,21]和一次性字符識別[22]等任務。

2.1 全卷積Siamese架構

作者提出一種對於候選圖像x的全卷積Siamese架構。當一個函數爲轉換函數,那麼它就是全卷積的。引入Lτ來表示平移算子(Lτ x)[u] = x [u-τ],對於任意平移τ與整數步長k,如果滿足

(當x是有限信號時,輸出範圍也是有限區間)那麼信號映射函數h是全卷積的。

全卷積網絡與候選圖像大小無關,它將計算所有轉換子窗口x與z的相似性。作者使用卷積嵌入函數φ互相關層組合所得到

其中b1表示在每個位置的取值(b∈R)。

(1)此網絡的輸出f(z,x)是在有限網格D⊂Z^{2}上定義的分數圖,網絡滿足:f(z,x)= f(x,z)

(2)嵌入函數的輸出φ是空域上的特徵映射(不是普通矢量)

全卷積Siamese架構: 我們的架構相對於候選圖像x是全卷積的,其輸出是標量值得分圖,尺寸取決於候選圖像的大小。
分數塊中的紅色和藍色像素包含對應塊的相似性。

在跟蹤期間,我們使用以目標的先前位置的中心作爲候選圖像x的中心,其中最大分數的位置=分數圖中心\times網絡塊大小。使用互相關組合特徵圖並在較大的候選圖像上評估該訓練網絡,在數學上等同於使用內積組合特徵圖並且獨立地評估每個轉換子窗上的訓練網絡。互相關層提供了一種非常簡單的方法,可以在現有的conv-net庫的框架內有效地實現此操作,它在訓練和測試期間非常有用。

2.2 訓練

(1)對於損失計算:採用判別性方法,在正負樣本對上訓練網絡,採用log損失

其中v是單個樣本候選對的實際分數,y∈{+1,-1}是對應的GT值。

訓練期間,使用包含示例圖對更大候選圖對來實現網絡全卷積。這將生成分數圖v:D→R,生成對每個圖像對的映射

將得分圖的損失定義爲所有損失的均值

要求分數圖中每個位置u∈D的GT值y[u]∈{+1,-1}。通過將隨機梯度下降(SGD)來獲得卷積網絡的參數θ

如圖2所示,通過提取兩個幀(最多相隔T幀)中以目標爲中心的示例圖x(第n幀)和候選圖z(第n+T幀)

在訓練期間忽略目標類別。在不破壞圖像的長寬比的情況下對每個圖像內的目標比例進行歸一化

(2)對於正負樣本的劃分:分數圖的元素在中心的半徑R內(考慮到網絡的步幅k),即:

將正負樣本損失值加權用來消除類不平衡。

從同一視頻中提取的訓練對:原圖和候選圖。 當子窗口延伸超出圖像範圍時,缺失部分用平均RGB值填充

2.3 在ImageNet數據集上訓練

ImageNet2015對象檢測:對30種不同類別的動物和車輛進行分類定位。 訓練集和驗證集合包含4417個視頻(train-3862與val-555),超過200萬個標記的bounding-box。(VOT [12],ALOV [1]和OTB [11]中標記序列的數量總共少於500個視頻)

作者認爲,ImageNet數據集在跟蹤方面影響更廣,場景和對象與規範跟蹤基準中的不同,不會導致過擬合。

2.4 實際考慮

1、數據集處理 

訓練階段

輸入圖像大小:127×127的第n幀,255×255的第n+T幀。bounding-box大小爲(w,h),變動區間爲p,比例因子s使得面積不變:

我們使用原始圖A=127^{2},p =(w + h)/ 4。爲了避免在訓練期間調整圖像大小,每個幀的原始和候選圖都進行了離線提取。用全卷積Siamese網絡訓練。

數據集

ImageNet Video視頻,作者採用先驗法限制提取訓練數據的幀數

2、網絡架構 

採用嵌入函數φ的體系結構(類似於Krizhevsky等人的網絡的卷積階段)

參數等信息在表1中給出。除了conv5(最後一層)之外,ReLU非線性應用於每個卷積層及全連接層的輸出。在每個線性層之後都會進行批量標準化[24]。最後一步的Stride是8。

通道映射屬性描述了每個卷積層的輸出和輸入通道的數量。

3、跟蹤測試階段 

特點不更新模型不保存之前幀的目標外觀;沒有采用光流法或顏色直方圖特徵;沒有使用Bounding-box迴歸來改進預測框

測試階段只搜索大約Bounding-box大小的四倍的區域內的對象,並且在分數圖中添加餘弦窗以懲罰大位移

通過處理候選圖的幾個縮放形式來實現跟蹤。分數變化會造成懲罰,並且當前規模的更新會受到抑制。

3 目前相關工作

詳情請看論文。

4 實驗結果

4.1 實施細節

訓練階段 

使用MatConvNet [31]通過簡單的SGD計算式(5),式中參數初值遵循高斯分佈,然後根據改進的Xavier方法[32]進行縮放,總共進行50多次迭代,每次都有50,000個採樣對(第2.2節)。使用尺寸爲8的小批量估計每次迭代的梯度,當數值達到10^{-2}10^{-5}範圍時,降低學習速率。

跟蹤測試階段 

策略:(1)初始幀的目標外觀嵌入函數φ(z)只計算一次,並與後續幀的子窗口進行卷積比較。

(2)在線更新(特徵表示)樣本效果並不大,故不在線更新

(3)跟蹤階段使用雙三次插值從17×17到272×272對得分圖進行上採樣,定位更準確。

(4)爲了處理尺度變化,搜索超過五個尺度(1.025^{\left \{ -2,-1,0,1,2 \right \}})的對象,並通過線性插值更新尺度,阻尼係數爲0.35。

代碼網址:http://www.robots.ox.ac.uk/~luca/siamese-fc.html

配置:單個NVIDIA GeForce GTX Titan X,4.0GHz英特爾酷睿i7-4790K

速度:86幀(SiamFC-3s);58幀(SiamFC)

4.3 OTB-13基準

OTB-13 [11]基準考慮了不同閾值下的每幀平均成功率:IoU高於某一閾值,則跟蹤成功。(曲線下方的面積大小代表跟蹤效果)

算法比較:Staple [33] ,LCT [34],CCT [35],SCT4 [36],DLSSVM NU [37],DSST [38]和KCFDP [39]。

在訓練期間將25%的圖像對轉換爲灰度。所有其他超參數(用於訓練和跟蹤)固定不變。

4.4  VOT基準

數據集:標籤vot2015-final。(其中,當IOU=0時,認爲跟蹤器失敗,則自動重新初始化五幀)

VOT-14結果

算法比較:VOT2014最佳10個跟蹤器、Staple(CVPR2016)、GOTURN(ECCV2016)

評估指標:準確性(圖4中的縱座標:平均IOU)和魯棒性(圖4中的橫座標:失敗幀數/總幀數)。

VOT-15結果

算法:VOT2015最佳40個跟蹤器。

評估指標:在VOT2015論文中,將長度爲N幀的視頻中計算從Nn到Nm幀的平均IOU(對於[Nn,Nm]的取值方式:描述出概率密度函數(簡稱pdf:使用核函數估計)曲線,從中取出積分面積爲0.5的幀區間[Nn,Nm],並且兩端的pdf值近似相等)

需要改進的方法:模型更新,邊界框迴歸,微調,內存

4.5  數據集

使用更大的視頻數據集可以進一步提高模型性能。

5  總結

(1)引入一種側重於在離線學習強嵌入的替代方法。

(2)Siamese全卷積深度網絡能夠更有效地使用可用數據。 既可以在測試時通過執行有效的空間搜索來反映,也可以在訓練時反映,其中每個子窗口有效地代表了一個有用的樣本,且成本很低。

(3)深度嵌入爲在線跟蹤器提供了很多功能來源,並在跟蹤時很好地運行。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章