論文全名:Accurate Scale Estimation for Robust Visual Tracking
論文摘自ECCV 2016,由Martin Danelljan(目標跟蹤大神)、Gustav Häger、Fahad Shahbaz Khan、Michael Felsberg撰寫
摘要
DCF(判別相關濾波器)特點:通過包括訓練樣本的所有移位來提取負樣本(只限於單分辨率特徵圖)。
作者基於DCF,提出訓練連續卷積濾波器:在連續空間域中,用隱式插值模型訓練。
特點:(1)在多分辨率深度特徵圖中處理高效;(2)算法可以進行亞像素定位,對精確特徵點跟蹤任務表現突出;(3)同時在廣泛特徵點跟蹤實驗中表現不錯。
1 前言
(1)DCF:利用離散傅立葉變換解決訓練樣本的所有空間移位(在VOT2014、OTB2015都有廣泛應用),缺點:只限於單分辨率特徵圖。
(2)基於DCF的DCNN(DeepSRDCF與HCF等):利用淺卷積層來進行圖像分類(空間分辨率更高),缺點:在DCF基礎上融合多個層仍未解決。
作者提出:
在連續空間域中訓練一個卷積算子(用訓練樣本學習一個隱式插值模型),將學習的一組卷積濾波器產生目標的連續域置信度圖,將該卷積濾波器與多分辨率特徵圖(或者亞像素、特徵點跟蹤)融合。
2 相關工作
DCF(用循環相關以滑窗形式訓練迴歸器):
(1)單通道特徵:MOSSE、核化tracking-by-detection
(2)多通道特徵(可以結合HOG和顏色等高維特徵):CN、MCCF、DSST、SAMF(尺度估計)、KCF、LCT(非線性核)、SRDCF、ZACFs、CFLM(減弱循環卷積的週期性)。
DCNN:
(1)最後一個卷積層用於圖像分類(特點:判別力,有高級視覺信息)
(2)第一個卷積層用於視覺跟蹤:DeepSRDCF。(特點:高空間分辨率下具有低特徵,利於定位)。
特徵點跟蹤
(1)經典的Kanade-Lucas-Tomasi(KLT)跟蹤算法:(生成模型)最小化兩個圖像塊之間的差異的平方和
(2)改進版的KLT跟蹤器。
(3)作者提出一種判別學習方法。
作者提出:在連續空域中學習一個判別卷積算子。
特點:(1)可以集合多分辨率特徵映射:卷積層與多分辨率HOG、顏色特徵的組合。
(2)可以實現精確的亞像素定位。
3 訓練連續卷積算子
【1】準備工作
空間:希爾伯特空間,標準正交基爲:,其中。
在週期函數中,考慮複函數g,滿足T> 0且平方勒貝格可積。
定義:設,內積滿足;循環卷積運算:,其中。
性質:
(1)設g的離散傅立葉係數爲,那麼。
(2)(Parseval等式)(範數的性質)。
(3)離散傅立葉係數滿足兩個卷積特性:與,其中。
【2】連續訓練(整體過程)
輸入:第j幀(以目標框爲中心長寬各放大5倍)圖像塊的特徵圖(用imagenet-vgg-m-2048預訓練的結果):(共D個特徵通道)
目的:訓練一個連續卷積算子。
記爲第d個特徵通道的訓練樣本數,爲其索引值,則樣本空間爲。
(1)引入隱式插值模型:
定義特徵通道的區間爲(),第d個特徵通道的插值算子爲(從歐式空間到希爾伯特空間的映射),
其中,,可看作希爾伯特空間的標準正交基,那麼式(2)則表示爲插值基函數偏移的疊加。
特點:與DCF類似(週期性),上式對特徵圖做了週期性擴展。
(2)【歐式空間:針對連續區間】定義置信度函數:。(一維)
特點:與其他判別法類似,最大化圖像區域中的置信度得分來定位目標。而關鍵區別在於置信度函數是在連續空間域上定義的,因此可用於更高精度地定位目標。
(3)【希爾伯特空間:針對所有的空間域】計算樣本x的卷積算子(置信度函數)
定義一組(有特徵通道區分的)連續卷積濾波器。
卷積算子(連續)爲所有通道的卷積和:,其中,(根據循環卷積性質)。
(4)【希爾伯特空間:針對所有的空間域】定義樣本的期望輸出:。
特點:對亞像素處理更加精確。
(5)計算濾波器f:
定義訓練樣本對,最小化損失函數即可得到濾波器f。其中,空間正則化項與SRDCF類似。
特點(對於):
正則項可以控制濾波器f的空間範圍(圖像區域任意);
對於背景特徵的空間區域,值較大;
在[0,T]上定義,並週期性地擴展到,即由多個傅立葉係數組成:
接下來,我們使用提出的公式(4)推導出訓練連續濾波器f的過程。
【2-1】訓練濾波器f(傅立葉變換)
目的:在傅立葉域中最小化式(4)。
(1)設的離散傅立葉變換爲,其中,,插值特徵圖的傅立葉係數爲:。
(2)由【1】準備工作中傅立葉變換的卷積性質,可得到置信度函數的傅立葉係數:
。
(3)由【1】準備工作中Parseval公式放入式(4)中,得到損失函數:
出於實際目的,濾波器f需要由一組有限的參數表示。
(4)考慮子空間(有限維)(對於第d個特徵通道,當時,有,即(設定)決定了濾波器的係數數量),
【a】定義非零向量,其中,,
【b】設,對於期望輸出,其中,,
【c】對於式(6)的正則項,設爲的非零係數數量(當時,有),定義滿足的矩陣(Toeplitz矩陣),其大小爲:
。
【d】定義非零塊矩陣,其中由矩陣組成,其中,,
【e】根據式(6),(與SRDCF中相同)可得到有限維空間V中的損失函數爲:,其中,表示標準歐幾里德範數。
【f】對式(7)的求一階導(目的:損失函數最小化):
(8)
其中,,H表示矩陣共軛轉置。
(5)注意,如果w具有少量的非零傅里葉係數w[k],則(8)形成稀疏線性方程。
在進行跟蹤時,採用共軛梯度法迭代求解式(8);對特徵點跟蹤時,使用單通道特徵映射和常數w。
【2-2】期望輸出y與插值函數b
(1)定義一個週期函數,其中,利用【1】準備工作中內積的定義,由泊松求和公式可得到:。
(2)記爲樣本中目標的估計位置,期望輸出爲一維高斯函數()的週期函數,則其傅立葉係數爲:。
(3)記爲三次樣條插值核函數,插值函數=(的縮放平移),則其傅立葉係數爲:。
【3】高維度擴展
考慮二維情況。
空間:希爾伯特空間,標準正交基爲:。對應濾波器f的訓練也可從【3】中對應得到。
期望輸出爲二維高斯函數,插值函數b爲三次樣條插值核的可分離組合:。
4 跟蹤框架
基於最大化連續置信度函數。
【1】定位
目的:利用濾波器f定位目標。
(1)圖像中感興趣區域中提取特徵圖。
(2)用式(5)計算置信度函數的傅里葉係數。
(3)採用兩步法最大化區間上的得分:
1.粗略估計【離散】(執行網格搜索):對於,用估計置信度函數。即的縮放逆離散傅立葉變換。
2.將其最大值(記作)作爲初始值,通過的解析微分來計算梯度和Hessian。
【2】目標測試
設定:
(1)學習率參數λ= 0.0075,權重爲,然後將權重歸一化,使得。
(2)m = 400(最多包含)
(3)檢測目標方法:執行多尺度搜索(與SRDCF與SAMF相同),有5個尺度和相對1.02的比例因子,然後用【1】中網格搜索方法(五次牛頓迭代)最大化置信度。
(4)迭代式(8)來完成:初始幀迭代100次,後續幀迭代5次。
【3】特徵點測試
輸入:一張灰度圖
設在單通道特徵圖(D = 1)中,設爲常函數,那麼式(8)可化簡爲:
5 實驗
目標跟蹤:OTB-2015,Temple-Color和VOT2015。
特徵點跟蹤:MPI Sintel。
【1】評估在跟蹤中融合來自深層網絡的多個卷積層的影響:
Layer 0:輸入RGB圖像層;Layer 1:第一個卷積層;Layer 5:最後一個卷積層。
【2、目標跟蹤】OTB-2015、Temple-Color與VOT2015數據集
算較:C-COT、ASLA、TLD、Struck、LSHT、EDFT、DFT、CFLB、ACT、TGPR、KCF、DSST、SAMF、MEEM、DAT、LCT、HCF、Staple和SRDCF、SRDCFdecon、DeepSRDCF。
【3、特徵點跟蹤】MPI Sintel數據集
數據集特點:由23個序列組成
評估方法:在每個序列的第一幀中選擇大約2000個特徵點進行評估。
算法比較:MOSSE、C-COT(學習率都爲,正則參數都爲)和KLT(逐幀跟蹤特徵點)、Ours-FF(學習率)。