目標跟蹤檢測算法(三)——相關濾波與深度學習應用

第三階段(2012年~至今 ,基於相關濾波的跟蹤算法提出,及深度學習的應用)

1、相關濾波

MOOSE(ICCV 2010)是目標跟蹤領域第一篇相關濾波算法,採用單通道灰度特徵,在訓練和檢測時都沒有加padding,速度:615FPS,第一次顯示了相關濾波的潛力。
CSK(與KCF/DCF同一作者)在MOSSE的基礎上擴展了密集採樣(加padding)和kernel-trick,速度:362FPS。
KCF/DCF在CSK基礎上擴展了多道通的HOG特徵,速度:KCF–172FPS,DCF–292FPS。
CN(Martin Danelljan大神–林雪平大學)在CSK的基礎上擴展了多通道顏色的Color Names,速度:152FPS。

1)MOSSE
相關濾波的跟蹤算法始於2010年David SBolme提出的MOSSE方法,其方法利用了信號處理中的相關性,通過提取目標特徵來訓練相關濾波器,對下一幀的輸入圖像進行濾波,不難發現,當兩個信號越相似,即後一幀中圖像的某個位置的目標與前一幀用於訓練的特徵越相似,在該位置濾波器所計算得到的相關值越高,相關性計算如下圖,g爲計算的相關值,f爲輸入圖像,h爲濾波器模板。
在這裏插入圖片描述
作者在文中提及爲了減少計算量,加快相應,通過快速傅里葉變化(FFT)將卷積操作變成了點乘操作。那剩下的問題在於怎麼在每一幀之後更新相關濾波器呢?
由於考慮到了外觀變化等情況,並不單能從前一幀圖像去考慮相關濾波器,而需要同時考慮前面的多個圖像,相加最小。
在這裏插入圖片描述
求導得:
在這裏插入圖片描述
考慮光照等,作者也加入了權值濾波計算:
在這裏插入圖片描述
MOOSE的工作流程:
1、先手動或條件給定第一幀目標區域,提取特徵,訓練相關濾波器。
2、對下一幀輸入圖像裁剪下預測區域,進行特徵提取,做FFT運算,與相關濾波器相乘後將結果做IFFT運算,得到輸出的相應點,其中最大響應點爲該幀目標的位置。
3、將該幀的目標區域加入訓練樣本中,對相關濾波器進行更新。
4、重複步驟2、3,即可實現目標跟蹤。

2)CSK
CSK在MOSSE的基礎上擴展了密集採樣(加padding)和kernel-trick。密集採樣通過循環矩陣似的圖片向量移位,在不增加過多內存的基礎上增加樣本數。而用核技巧可以在低維空間完成高維空間的計算,避免維度災難。
CSK用一個線性分類器來求解相關濾波。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
與之前的方法的最大不同是加入了正則項,爲了防止求得的濾波器過擬合。那如何求解呢?CSK算法使用核技巧是爲了提高在高維特徵空間中分類樣本的速度。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
建議目標函數,求導,計算最小值,可以得到:
在這裏插入圖片描述
在這裏插入圖片描述
循環矩陣和稠密採樣都是爲了求濾波器w,換言之就是爲了求α,理想響應y是已知的,所以求出K即可。
稠密採樣是通過構建循環矩陣實現稠密採樣,x爲輸入圖像,爲一個nx1的向量,P表示循環移位操作,每次移動一個元素。
在這裏插入圖片描述
在這裏插入圖片描述
第一行爲實際採集的目標特徵,其他行表示週期性地把最後的矢量依次往前移產生的虛擬目標特徵。因爲整個循環矩陣都是由n×1向量演變而來,所以循環矩陣不需要空間專門去保存它。這樣的好處是增加了樣本的數量,使得訓練的結果更爲準確。
在這裏插入圖片描述
在這裏插入圖片描述

3)KCF/DCF
KCF全稱爲Kernel Correlation Filter 核相關濾波算法。是在2014年由Joao F. Henriques, Rui Caseiro, Pedro Martins, and Jorge Batista提出來的,算法出來之後也算是轟動一時。
KCF在CSK的基礎上拓展了HOG特徵,替代原有的特徵能取得更好的效果。HOG特徵也是運用的比較廣的一個特徵,簡單來說是對輸入圖片進行分塊,分成最小單位cell後計算一個cell水平梯度和豎直梯度,並將ixi個cell組成一個block進行歸一化,這樣做我們可以忽略平面內部一些大塊非邊緣信息,也可以減少光照的影響。HOG特徵的好處在於它用的是像素與像素之間的向量來作爲特徵,這個意味着全局光照的亮暗對其影響有限,魯棒性強,HOG對局部紋理的敏感性更強。
在這裏插入圖片描述
KCF和DCF是在特徵上採用了多通道,而兩者的不同在於採用不同核函數,用Gauss核函數叫KCF,採用linear kernel時叫DCF,其中DCF由於採用的linear-kernel,所以multi-channel合併時有優勢,速度比KCF快,效果差一點點。
在這裏插入圖片描述
在這裏插入圖片描述
至今對於DCF這個模型爲基礎仍有很多學者進行研究改進,如SRDCF在其基礎上解決了多尺度問題和加入懲罰項。

4)CN
CN是在CSK的基礎上拓展多通道顏色特徵,其方法是將RGB的3通道圖像投影到11個顏色通道,分別對應英語中常用的語言顏色分類,分別是black,blue, brown, grey, green, orange, pink, purple, red, white, yellow(對比漢語中常用的語言顏色分類:赤橙黃綠青藍紫+黑白灰,英語和漢語對顏色的認知還是略有差異的),並歸一化得到10通道顏色特徵。作者還測試了多種顏色特徵在相關濾波中的效果,發現CN最好,其次是LAB;

5)DSST
DSST算法也是基於KCF算法改的較好的一種。DSST(Accurate Scale Estimation for RobustVisual Tracking)是2015年BMVC(InProceedings of the British Machine Vision Conference)上的文章,並在2014VOT比賽中奪得了第一名,算法簡潔,性能優良,可移植性高。之篇文章是基於MOSSE,KCF基礎上的改進,主要有兩個方面:(1)引入多特徵融合機制,這個和SAMF算法一樣,使用的特徵爲HOG+CN+灰度特徵;(2)文中最大的創新點是對於尺度的改進。
DSST的最大改進在於通過取圖像金字塔,增加了一個尺度濾波器,其計算過程如下:
1、和KCF一樣,用一個相關濾波器進行跟蹤,得到目標的位置;
2、在目標的基礎上通過調整跟蹤框的比例,通過圖像金字塔,從不同的尺寸去檢測,尋找響應值最大的尺度,從而實現尺度自適應。
在這裏插入圖片描述
其中,P,R分別爲目標在前一幀的寬高,a=1.02爲尺度因子,S=33爲尺度的數量。上述尺度不是線性關係,而是由精到粗(從內到外的方向)的檢測過程。
小結
相關濾波的出現在目標跟蹤領域引起了很長一段時間基本上統治了目標跟蹤領域,雖然在2016年之後,相關濾波和深度學習的融合越來越多,但是其跟蹤思想直至現在依然處於主流的地位。

2、基於深度學習的跟蹤算法

1)MDNet
MDNet是2015年VOT的冠軍,將深度學習引入目標跟蹤,這篇文章的創新點是用深度學習抽取運動的特徵,將運動特徵添加到目標跟蹤中,下圖是MDNet的網絡結構模型。
在這裏插入圖片描述
MDNet在視覺跟蹤方面更有效的原因
1、網絡較淺:視覺跟蹤的任務是爲了區分目標和背景兩類,比一般的視覺識別問題具有更小的複雜度(ImageNet的分類任務需要區分1000類)
2、定位精確:深層的CNN不利於精確地目標定位,因爲網絡越深,空間信息往往會被稀釋
3、目標較小:視覺跟蹤中的目標往往較小,這就使得網絡的輸入圖像尺寸變小,繼而降低了網絡的深度
4、速度較快:目標跟蹤任務中較小的網絡效果往往更好,訓練和測試是在線進行的。
5、與相關濾波相比,正負樣本是以經過卷積後的特徵圖保存的,可以節省空間,總正樣本集爲最近100次成功幀的正樣本,而總負樣本集爲最近20次成功幀的負樣本。
具體的網路結構和實驗可以自行去看MDNet的論文,在這我們更加關心的是它如何實現目標追蹤任務。
MDNet的跟蹤過程:
1、根據上一幀的target bounding box 生成256個候選區域(如果是第一幀的話輸入預訓練好的CNN網絡和第一幀的目標輸入)
2、前向傳播計算這256個候選區域的得分(conv1-FC6),挑選出計算目標得分最高的5個,對這5個候選區域取平均生成當前幀的target bounding box,並且計算這5個區域得分的平均值,與一個閾值(作者代碼中提供的是0)比較,判斷是否跟蹤成功。若成功,則進行bounding box 微調;若跟蹤不成功,首先擴大搜索區域(下一幀生成候選區域時用到),然後複製前一幀的結果爲當前幀的結果。
3、跟蹤成功時收集數據:根據當前幀預測的target bounding box 生成50個正樣本區域(IOU>=0.7),生成200個負樣本區域(IOU<=0.3),然後分別對這些樣本區域進行前向傳播,最後保存的是這些區域的conv3特徵 【其中幀數超過100個則拋棄最早的那些幀的正樣本區域,幀數個數若超過20個則拋棄最早的那些幀的負樣本區域】
4、跟蹤失敗時進行網絡的短期更新,選擇最近的20幀的正樣本和負樣本(這些正樣本和負樣本都是以conv3特徵進行保存),然後進行迭代訓練15輪,迭代過程和步驟3相同(迭代更新的是fc4~fc6)
5、每10幀進行一次長期更新,選擇最近100幀的正樣本區域和最近20幀的負樣本區域進行網絡更新,然後迭代15輪,迭代過程和步驟3相同(迭代更新的是fc4~fc6)
值得一提fc6是一個二分類層(Domain-specific layers),一共有K個,對應K個Branches(即K個不同的視頻),每次訓練的時候只有對應該視頻的fc6被使用,前面的層都是共享的。

2)TCNN
Modeling and Propagating CNNs in a Tree Structure for Visual Tracking(TCNN,CVPR2017)這篇論文是VOT2016的亞軍,是由韓國POSTECH大學的Hyeonseob這個組做的,這個組之前提出了MDnet,CNN-SVM算法。
TCNN通過在樹形結構中管理多個目標外觀模型來呈現在線視覺跟蹤算法。所提出的算法使用卷積神經網絡(CNN)來表示目標外觀,其中多個CNN協作以估計目標狀態並確定樹中在線模型更新的期望路徑。通過在樹形結構的不同分支中維護多個CNN,可以方便地處理目標外觀中的多模態,並通過沿樹路徑的平滑更新來保持模型可靠性。由於多個CNN共享卷積層中的所有參數,因此通過節省存儲空間和避免冗餘網絡評估,它利用了多個模型而幾乎沒有額外成本。
TCNN算法的原理:
1、這篇論文使用多個CNN用樹形結構組合起來,一起對新的一幀進行目標檢測,檢測分數最高的proposal就是選中的target;
2、當一個新的幀進來時,根據上一幀的跟蹤結果生成256個候選框,對每個候選框都使用目前的CNN樹來計算自己的score,score最高的就是選中的target;
3、在在線跟蹤過程中,每十幀添加一個新的CNN節點,並刪除最前的一個節點,只保留最近的十個CNN節點,這樣就做到了模型更新;
在這裏插入圖片描述
閱讀完後,我對樹結構是這樣理解的,每個CNN實際上是一個CNN塊,裏面包含着3個conv和3個fc,每個CNN都有自行對輸入圖片輸出前景和背景兩個概率值的能力。而作者想用樹形結構組合多個CNN,一起對新的一幀進行目標檢測,取得分數最高的,這就在於如何訓練使得這多個CNN有不同的評分能力,爲了節約資源,文中提出CNN的conv3層是共享的,也就是說不同的只有全卷積層。
從論文中,發現其實不同的全卷積層對目標外觀的姿態有不同的敏感性,舉個例子,當一個人的正臉圖和側臉圖同個全連接層可能會評分不同,但是卻可以專門訓練一個全連接層對該狀態敏感。在跟蹤時,雖然TCNN通過了10個CNN去求分數,由於每個CNN之間實時遞歸了關聯性,只通過關聯性高的路徑求加權來執行目標估計,這樣可以防止某個CNN出錯帶來的問題。然後再通過得到的所有加權估計比較最大值爲該候選框的分數。
在這裏插入圖片描述
3)GOTURN
GOTURN算法採用了YCNN的結構,但是該算法無法控制下一幀的變換形式,不具有變換的內在不變性,除非樣本集包含所有種類所有位置的變換。並且不能自適應調節搜索區域的大小。在GPU上,GOTURN可以達到100幀及以上的速度。
在這裏插入圖片描述
其實我們不難發現GOTURN的網絡結構和SiamFC很像。

4)Deeper and Wider Siamese Networks for Real-Time Visual Tracking(CVPR,2019)
文章對影響跟蹤精度的主幹網絡因素進行了系統的研究,爲Siamese跟蹤框架提供了一個架構設計的指導;基於文章提出的無填充殘差單元,設計了一種新的用於Siamese跟蹤的更深、更寬的網絡架構。實驗結果顯示新的架構對基準跟蹤算法確實有很明顯的性能提升效果。
作者通過消融實驗對加深Siamese的網絡結構造成的性能下降進行定性定量的實驗,總結了四個基本的設計指南:
1、即使網絡深度增加也儘量不要增加步長,從經驗上權衡準確率和效率的化,補償選擇4或者8;
2、應該根據其與樣本圖像大小的比例來設置輸出特徵的感受野,經驗來看,有效比例爲60%~80%,最大感受野不應該大於目標圖像;
3、設計網絡結構時應該綜合考慮步長、感受野和輸出特徵圖尺寸,如果改變一個,其他兩個也需要相應改變,這樣可以給Siamese框架提取更有區分度的特徵;
4、對於全卷積Siamese網絡,去掉填充操作是至關重要的。由其引起的位置偏差會影響Siamese跟蹤器的精度和魯棒性,尤其是目標快速移動或者在圖像邊界移動時。
爲此,本文作者設計了一個CIR單元模塊,可以通過該模塊的堆疊獲得更深、更寬的主幹網絡。
在這裏插入圖片描述
圖中可以看到,基本的CIR單元,在殘差單元的add後面加入了一個裁剪層,其目的在於將那些受到之前填充操作影響的地方都刪除;下采樣的CIR-D單元,爲了消除填充的影響,作者在瓶頸層和短接層中將步長改爲1,在add之後同樣採用裁剪,最後再使用最大池化執行尺寸下采樣;CIR-Inception和CIR-NeXt單元,將CIR單元通過多個特徵變換擴寬而來,其他修改與CIR-D的修改差不多。

3、深度學習和相關濾波相結合

1)DeepSRDCF
DeepSRDCF在VOT2015中取得了第四名的成績,它是在SRDCF的基礎上進行改進的,速度爲4fps。這也是深度學習和相關濾波的一次結合。雖然結合的方式和直接,作者發現CNN所提取的feature map的在解決跟蹤的問題比傳統方法所提取的特徵好,而且在跟蹤問題中,不需要太高的語義信息,淺層的特徵在目標跟蹤中的效果更好。爲此DeepSRDCF與SPDCF的不同在於將原有的特徵換成了CNN的特徵。

2)C-COT
C-COT算法是DCF(KCF)算法的又一重要演進算法,該算法在VOT-16上取得了不錯的成績。C-COT使用深度神經網絡VGG-net提取特徵,通過立方插值,將不同分辨率的特徵圖插值到連續空間域,再應用Hessian矩陣可以求得亞像素精度的目標位置(就和SURF、SIFT裏面獲取亞像素精度特徵點的思想類似)。確定插值方程之後,還解決了在連續空間域進行訓練的問題。C-COT也是基於SRDCF的框架去改進的,最大不同在於將學習檢測過程推廣到連續空間域中,獲得亞像素精度的位置。
在這裏插入圖片描述
在這裏插入圖片描述
由於不同的卷積層能獲得的信息意義不同,底層的特徵更有利於確定精確的位置,越深層的特徵包含語義信息。通過多分辨率的特徵圖,結合多分辨率的濾波器進行訓練和檢測,可以獲得更加精確的位置和更好的魯棒性。應用三次線性內插值進行目標位置亞像素精度的定位。
D-COT的由於採用了深度信息實際上測試速度很慢,也符合近幾年的改進情況,以犧牲高效性來提高性能。

3)ECO(2017)
自MOOSE的提出之後,在相關濾波上有很多學者做了獲得工作,但是隨着特徵維度越來越高,算法複雜性上升,跟蹤效果雖然逐步提升,但是卻以跟蹤效率的犧牲作爲代價。ECO算法(下一作)在C-COT的基礎上將速度提升到了60fps,並且將樣本分組解決過擬合問題,效果更好了。
爲此ECO以提高時間效率和空間效率爲出發點,分析了速度降低的三個重要的因素:
1、模型大小,更加複雜的特徵的融合和應用,使得每一次更新模型的參數量越來越大,模型速度就下降了。而且增加維度卻沒有足夠的樣本數,容易引起過擬合。
2、訓練集大小,將每一幀的目標作爲新的樣本加入到訓練集之中,對相關濾波器進行更新,但是隨着視頻序列的增加,訓練集中的樣本數會越來越多,使得訓練越來越慢。像傳統方法是進來一幀我就丟棄最前面的一幀,如果後面的幀是錯誤的話,目標跟蹤就會越跟越偏。
3、模型更新,模型更新是否需要對每一幀都進行更新。
針對以上三個問題,在ECO中進行了改進:
1、 Factorized Convolution Operator(因式分解的卷積操作)
在C-COT中,作者對每一個特徵圖都對應一個濾波器,ECO在特徵提取上做了簡化。用了原來特徵的子集,從D維的特徵中選了其中的C維。C-COT是每個維度的特徵對應一個濾波器,D維的特徵就有D個濾波器,其實很多濾波器 的貢獻很小。如圖一所示,C-COT的大部分濾波器的能量很小。而ECO只選擇其中貢獻較多的C個濾波器,C<D,然後每一位特徵用這C個濾波器的線性組合來表示。這裏的C維如何選擇文中沒有具體說,我猜測是簡單的利用濾波器中大於某個閾值的元素個數來選擇。
在這裏插入圖片描述
新的檢測函數爲:
在這裏插入圖片描述

2、ECO簡化了訓練集
在這裏插入圖片描述
上圖中下面一行是傳統的訓練集,每更新一幀就加一個進來,那麼連續的數幀後訓練集裏面的樣本都是高度相似的,即容易對最近的數幀樣本過擬合。上面一行是ECO的做法,ECO用了高斯混合模型(GMM)來生成不同的component,每一個component基本就對應一組比較相似的樣本,不同的component之間有較大的差異性。這樣就使得訓練集具有了多樣性。

3、對樣本更新每一幀都做,對模型更新只是每隔i幀做一次。
在這裏插入圖片描述

總結一下ECO效果好的原因:

  1. 特徵全面(CNN, HOG, CN),這個對結果的貢獻很高;
  2. 相關濾波器經過篩選更具代表性(2.1做的),防止過擬合;
  3. 訓練樣本具有多樣性(2.2做的),減少冗餘;
  4. 非每幀更新模型,防止模型漂移;

4)SiamFC
SiamFC的提出被很多人當成了破冰之作,打破了相關濾波在目標跟蹤領域的壟斷地位,可以說真正出現了一種可以和相關濾波相匹敵的目標追蹤網絡。
全卷積孿生網絡作爲基本的跟蹤算法,這個網絡在ILSVRC15的目標跟蹤視頻數據集上進行端到端的訓練。我們的跟蹤器在幀率上超過了實時性要求,儘管它非常簡單,但在多個benchmark上達到最優的性能。
在這裏插入圖片描述
在這裏插入圖片描述
上圖的∗表示的就是相關濾波,就是用一個FeatureMap卷積另一個Feature Map的操作。最後生成一張17x17的概率(score)分佈表,概率最大的那個就是目標位置,映射會原圖像就可以得到輸出bbox。
全卷積網絡的優點是待搜索圖像不需要與樣本圖像具有相同尺寸,可以爲網絡提供更大的搜索圖像作爲輸入,然後在密集網格上計算所有平移窗口的相似度。本文的相似度函數使用互相關,公式如下
在這裏插入圖片描述
本文提出了一種全卷積的Siamese網絡,稱爲SiamFC。全卷積的結構可以直接將模板圖像與大塊的候選區域進行匹配,全卷積網絡最後的輸出就爲我們需要的響應圖。在響應圖中尋找響應值最高的一點,該點在候選區域中的對應部分,就是預測的目標位置。也可以用感受野來理解,上圖中輸出的小紅點和小藍點,對應在輸入層的感受野就是輸入圖像x中的紅色區域和藍色區域。

5)Siamese Net大爆發(2018,SiamRPN, SA-Siam-R)
上文所說的Siamese FC存在一些問題:bbox需要回歸,需要多尺度測試,效率低;由於採用模板,提取的數據爲首幀較爲單一,單有兩個人重疊時bbox框容易跑到其他人身上去。
而Siamese RPN的提出是將網絡後的FC換成了RPN,網絡結構如下:

在這裏插入圖片描述
RPN相關的知識可以通過閱讀Faster R-CNN來了解,這裏不再多說明。
在這裏插入圖片描述
一開始我比較好奇的是爲什麼SiamRPN比SiamFC的EFO要高那麼多,通過總結的是因爲RPN的應用,不需要進行多尺度的測試了,可以直接進行位置、大小的迴歸,因此提高了算法的跟蹤速度。

SA-Siam由語義分支和外觀分支組成,每一個分支都是一個相似性學習孿生網絡。作者分別訓練了這兩個分支來保持兩種類型特徵的異質性,也就是讓兩種特徵不一樣。此外,作者在語義分支上加入了通道注意力機制,這個東東是幹啥的,它可以根據目標位置周圍的信息激活來計算通道權重,不同的跟蹤目標有不同的通道權重。同時SiamFC的固有結構可以讓跟蹤器保持實時性,兩個孿生網絡和注意力機制的設計可以大大的提高跟蹤性能。
在這裏插入圖片描述
這個分支的訓練方法與Appearance branch類似。
testing階段,這個分支也會得到一個響應圖,這個響應圖會與Appearance branch的響應圖求加權平均,得到最終響應圖。經過實驗,論文給出的加權係數爲0.3,即0.3A+0.7S。

有幾個點需要注意:
(1)S-Net直接使用預訓練好的AlexNet參數,不用再訓練;
(2)兩路輸入均包含了背景。groundtruth分支輸入以真實目標爲中心的與搜索區域等尺寸的區域圖像,而不僅僅輸入真實目標圖像,是爲了使用更多的背景信息,這對attention結構是有用的;
(3)使用了conv4和conv5層特徵。兩層特徵融合,已經證明對跟蹤精度有好處,因爲高層特徵關注語義,而低層特徵保有更精確的位置信息,二者可以互補;
(4)有一個attention結構。attention結構提供特徵的channel-wise權重,參數需要學習;
(5)有一個fuse結構。fuse結構可以看作是特徵融合,參數需要學習。

其中的attention結構:
在這裏插入圖片描述

在此結構中,特徵的各通道權重分別計算,其中conv4層特徵空間分辨率爲24x24,conv5層則爲22x22。對每個特徵通道,按上圖方法劃分成9格(9個格子尺寸不等),然後執行最大池化,得到9維特徵,經過MLP(多層感知機)和一個sigmoid函數,最後得到該通道權值。
fuse結構較簡單:是1x1的ConvNet,對conv4和conv5特徵分別做fusion,得到總共256個通道的特徵(其中conv4和conv5特徵各有128個通道)。

6)SiamMask(CVPR,2019)
在這裏插入圖片描述
SiamMask同樣是基於孿生網絡,和SiamFC不同的是,這裏的*d是depth-wise的cross correlation操作,也就是說這裏是對逐通道進行相關性計算,所以得到的響應保持了通道數不變(這裏是256)。文章把中間的這個響應稱爲RoW(response of candidate window),而後在這個RoW的基礎上分出了三個分支,分別進行分割,迴歸和分類。
利用mask生成
(1)axis-aligned bounding rectangle (Min-max):根據mask的最小最大x、y座標值生成座標軸對齊的bounding box,易知,這種方法生成的框是正的,如上圖中的紅框。
(2)rotated minimum bounding rectangle (MBR):根據mask計算最小外接矩形作爲bounding box,這種方式生成的框可以是歪的,如上圖中的綠框。
(3)Opt:最優的方法。這個最優的策略是在VOT-2016的挑戰中被提出來的,(這個方法我沒有去研究),生成的框也可以是歪的,如上圖中的藍框。
在這裏插入圖片描述
這個實驗比較有意思,是在VOT-2016數據集上做的,其標註是帶有旋轉角度的bounding box。實驗是爲了對比SiamFC、SiamRPN、SiamMask三個網絡的表現,並且找到這三者在這個數據集上的上限。第一大欄的三行分別表示再給出ground truth的基礎上,用固定比例的框、按照gt的邊緣生成和座標軸平行的框以及用gt的最小外接框這三種方式預測能夠得到的最好結果。也就分別對應了SiamFC、SiamRPN以及SiamMask三種方法能夠達到的上界。下面兩大行就是這幾個網絡實驗結果的對比了,SiamMask明顯好於其他兩者。
7)UPDT(2018,DCF+CNN)
在ECO提出後的很長一段時間,在相關濾波方向都是基於ECO和C-COT來進行改進的,並沒有什麼實質性的進展,沒有性能能全面超過ECO的論文。在ECO中,深度特徵的性能並沒有發揮出來,
UPDT對ECO的核心改進是兩種特徵區別對待,分而治之,深度特徵負責魯棒性,淺層特徵負責準確性,兩種檢測響應圖在最後階段自適應融合,目標定位最優化,兼具兩者的優勢。
在這裏插入圖片描述
在ECO中,深度特徵和淺層特徵的高斯標籤函數相同,UPDT提出要區別對待,實驗結果如上圖(b),深度特徵標準差1/4最好,淺層特徵標準差1/16最好。通過標籤函數增加的正樣本等價於平移數據增強,所以論文解釋是:深度特徵對小平移的不變性,同上從增加的正樣本獲益,深度特徵更應該關注魯棒性;小平移會使feature map差異巨大,tracker無法處理大量有差異的正樣本,淺層特徵更應該關注準確性。將深層特徵和淺層特徵加權融合。
在這裏插入圖片描述
這是在VOT2017的實驗效果
在這裏插入圖片描述
UPDT從研究deep tracker爲什麼無法從更好更深的CNN獲益這一問題開始,研究發現深度特徵和淺層特徵表現出截然不同的特性,先分後合的處理方法:
分,區別對待,深度特徵負責魯棒性,淺層特徵負責準確性,數據增強和寬標籤函數對深度特徵提升巨大。
合,自適應融合,提出質量評估方法,以最大化融合質量爲目標函數,最優化方法同時獲得深度特徵的魯棒性和淺層特徵的準確性。

參考連接
C-COT參考:http://www.p-chao.com/2017-04-20/圖像��%9
F%E8%B8%AA%EF%BC%88%E5%8D%81%EF%BC%89c-cot%E7%AE%97%E6%B3%95%EF%BC%9A%E8%BF%9E%E7%BB%AD%E7%A9%BA%E9%97%B4%E5%9F%9F%E7%9A%84%E5%8D%B7%E7%A7%AF%E6%93%8D%E4%BD%9C/
ECO參考:https://blog.csdn.net/zixiximm/article/details/54378397
SiamFC 參考:https://blog.csdn.net/nightmare_dimple/article/details/74210
147
SiamRPN參考:https://blog.csdn.net/leviopku/article/details/81068487
SA-Siam參考:https://blog.csdn.net/fzp95/article/details/81028039
SiamMask參考:https://blog.csdn.net/hey_youngman/article/details/88751952
UPDT參考:https://zhuanlan.zhihu.com/p/36463844
MDNet參考連接:https://blog.csdn.net/Zfq740695564/article/details/79598559
TCNN參考連接:https://blog.csdn.net/sinat_31184961/article/details/84023617
相關濾波、KCF參考:https://blog.csdn.net/sgfmby1994/article/details/68490903
MOSSE參考:https://blog.csdn.net/qq_17783559/article/details/82254996
HOG參考:https://blog.csdn.net/wjb820728252/article/details/78395092
DSST參考:https://blog.csdn.net/weixin_38128100/article/details/80557460

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章