MOSSE(Visual Object Tracking using Adaptive Correlation Filters)論文詳解

摘要

雖然不常用,但相關濾波器可以通過旋轉,遮擋和其他干擾來跟蹤複雜物體,其速度是當前最先進技術的20倍以上。最舊和最簡單的相關過濾器使用簡單模板,並且在應用跟蹤時通常會失敗。諸如ASEF和UMACE等方法表現優秀,但他們的訓練的需求不太適合跟蹤。視覺跟蹤需要從單個幀訓練強大的濾波器,並在目標對象的外觀發生變化時動態調整。

本文提出了一種新型的相關濾波器,即最小平方誤差輸出和(MOSSE)濾波器,它在使用單幀初始化時產生穩定的相關濾波器。對於光照,縮放,姿勢和非剛性變形的變化時,基於MOSSE濾波器的跟蹤器具有魯棒性,同時以669幀的速度運行。通過計算峯值與旁瓣比來判斷目標是否被遮擋,當目標遮擋後又重新出現時,跟蹤器可以暫停並恢復它停止的位置

注意:本文包含CVPR 2010中排除的其他數字和內容,以滿足長度要求。

 1 前言

視覺跟蹤在視頻處理中有許多實際應用。當目標位於視頻的一幀中時,在後續幀中跟蹤該對象通常很有用。成功跟蹤目標的每個幀會提供有關目標的信息和動作等信息。由於跟蹤比檢測更容易,因此跟蹤算法可以在每個幀上運行對象檢測器上使用更少的計算資源。

視覺跟蹤近年來受到了很多關注。已經提出了許多強大的跟蹤策略,目標通過複雜的運動改變了外觀和跟蹤目標。例子包括:增量視覺跟蹤(IVT)[17],基於魯棒碎片的跟蹤(FragTrack)[1],基於圖像的判別學習(GBDL)[19]和多實例學習(MILTrack)[2]。雖然有效,但這些算法並不簡單。它們通常包括複雜的外觀模型或複雜的優化算法,因此很難與許多現代相機產生的每秒25到30幀相持平(見表1)。

在本文中,我們研究了一種更簡單的跟蹤策略。目標外觀由自適應相關濾波器進行建模訓練,並且通過卷積進行測試跟蹤。用於創建濾波器的樸素方法(例如,從圖像中裁剪)會爲目標生成峯值,但也會錯誤地響應背景,因此,它們對目標外觀的變化魯棒性較差,在挑戰性跟蹤問題上失敗。平均合成精確濾波器(ASEF),無約束最小平均相關能量(UMACE)和平方誤差的最小輸出和(MOSSE)(本文介紹)產生的濾波器對於目標外觀變化魯棒性更好並且能很好地區分目標和背景。如圖2所示,作者提出的方法轉換爲更少的漂移和更少的下降軌道,變成了一個更強的峯值。傳統上,ASEF和UMACE濾波器離線訓練數據,將其用於物體檢測或目標識別。在本論文中,我們變成了在線訓練數據,並採用自適應系統進行視覺跟蹤。結果是在保證最先進的性能基礎上,還保留了基礎相關性方法的大部分速度和簡單性。

該方法簡單,並在旋轉,縮放,光照和部分遮擋的變化下,基於改進的ASEF,UMACE或MOSSE濾波器的跟蹤表現良好(參見圖1)。測量相關峯值強度的峯值與旁瓣比(PSR)可用於檢測遮擋或跟蹤失敗的情況,從而停止在線更新,當對象以相似外觀重新出現則重新獲取信息。更一般地說,這些高級相關濾波器實現的性能與前面提到的更復雜的跟蹤器一致,但是,作者提出的這種方法速度提高了20多倍,每秒可處理669幀(見表1)。

本文的其餘部分安排如下。第2節回顧了相關濾波技術,第3節介紹了MOSSE濾波器以及如何使用它來創建基於跟蹤對象的魯棒濾波器,第4節介紹了來自[17]的七個視頻序列的實驗結果,最後,第5節將重述本文的主要發現。 

2 回顧

在20世紀80年代和90年代,與相關濾波器相關的變體相繼產生,包括合成判別函數(SDF)[7,6],最小方差合成判別函數(MVSDF)[9],最小平均相關能量(MACE)[11],最優權衡濾波器(OTF)[16]和最小平方誤差綜合判別函數(MSESDF)[10]。這些濾波器在具有不同外觀和強制硬約束的目標對象的示例上進行訓練,使得濾波器總是產生相同高度的峯值。最相關的是MACE,它產生尖峯和高PSR

在[12]中,發現基於SDF(合成判別函數)的濾波器(如MACE)的硬約束導致了失真容限問題。解決方案是消除硬約束,而不是要求濾波器產生高平均相關響應,這種稱爲最大平均相關高度(MACH)的新型“無約束”相關濾波器導致稱爲UMACE(無約束MACE)的MACE變體。

一種稱爲ASEF [3]的新型相關濾波器引入了一種調整特定任務濾波器的方法。早期方法只指定單個峯值,ASEF提出每個訓練圖像的整個相關輸出。 ASEF在眼睛定位[3]和行人檢測[4]方面表現良好。但在這兩項研究中,ASEF都需要大量的訓練圖像,這使得視覺跟蹤速度太慢本文通過引入適用於視覺跟蹤的ASEF的正則化變體來降低此數據要求。

3 基於跟蹤的相關濾波

基於跟蹤的濾波器原理爲,用示例圖像上訓練的濾波器來建立目標外觀模型。最初基於以第一幀中的目標爲中心的小跟蹤窗口來選擇目標,在此之後,跟蹤和濾波訓練將同時進行,通過在下一幀中的搜索塊上關聯之前的濾波器來跟蹤目標,該幀中輸出的最大值的位置表示目標的新位置。然後基於該新位置進行在線更新。

爲了創建快速跟蹤器,在傅立葉域上進行快速傅立葉變換(FFT)[15]中計算相關性。首先,計算輸入圖像的2D傅立葉變換:F=F(f)和濾波器:H=F(h)。卷積定理指出相關性計算傅里葉域中的元素乘法等同。使用⊙符號表示逐元素乘法而*表示複共軛,相關性計算採用以下形式:G=F\odot H^{*}(1)。使用逆FFT將相關計算的輸出變換回空間域。此過程中的瓶頸是計算正向和反向FFT,以便整個過程的上限時間(計算複雜度)爲O(PlogP),其中P是跟蹤圖像塊的像素數。

在本節中,我們將討論基於跟蹤的濾波器的組成部分: 3.1節討論在跟蹤窗口上進行的預處理模塊;3.2節介紹MOSSE濾波器,它是從少量圖像構建穩定相關濾波器的改進方法;3.3節介紹瞭如何使用正則化計算來生成更穩定的UMACE和ASEF濾波器。 3.4節討論了用於在線更新過濾器的簡單策略。

3.1 預處理模塊

FFT卷積算法的一個問題是圖像和濾波器被映射到環面的拓撲結構。 換句話說,它將圖像的左邊緣連接到右邊緣,並將頂部連接到底部。在卷積時,圖像旋轉通過環形空間而不是像在空間域中那樣進行平移。 人爲地連接圖像的邊界引入了影響相關輸出的僞像。

遵循[3]中概述的預處理步驟可以減少這種影響。 首先,使用對數函數變換像素值,這有助於低對比度照明情況。 將像素值歸一化爲具有0.0的平均值和1.0的範數。 最後,圖像乘以餘弦窗口,該窗口逐漸將邊緣附近的像素值減小到零。 這也有利於它將更多的重點放在目標的中心附近。

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章