基於深度學習的視覺跟蹤詳細的綜述


這篇論文發表2019 arxiv的一篇文章,是基於 單目標跟蹤, 論文地址:
Deep Learning for Visual Tracking: A Comprehensive Survey

當然之前也有相應深度跟蹤的綜述,例如:
“An in-depth analysis of visual tracking with Siamese neural networks,” 2017.“、、
Tracking noisy targets:A review of recent object tracking approaches,” 2018、、
“Handcrafted and deep trackers: Recent visual object tracking approaches and trends,2019(和前一個是同一篇文章的兩個版本)、、
“Deep visual tracking: Review and experimental comparison,2018(傳統的綜述47-50)

這篇綜述主要是系統的調研當前基於深度視覺跟蹤方法、基準數據集和評價指標,並且評價和分析了優秀的視覺跟蹤方法。

經過研究,發現如下:

1.視覺跟蹤方法最近企圖利用RL和GAN方法的優勢來refine他們的決策和減輕訓練數據的缺乏,從而爲視覺跟蹤設計專門的神經網絡
2.利用離線和在線訓練方法可以產生更加魯棒的視覺跟蹤器
3.利用更深和更寬的backbone network,從而提供強大的判別力
4.最好的視覺跟蹤方法同時使用分類和迴歸目標函數
5.利用不同的特徵(深度、手工、上下文信息、時間等)來增強目標模型的魯棒性。
6.對於基於深度學習的視覺跟蹤方法最有挑戰性的屬性是:遮擋、out-of-view、快速運動

目標跟蹤定義

Generic visual tracking aims to estimate the trajectory of an unkown visual target when only an initial state of the target(in a video frame) is available.(或者目標跟蹤是利用視頻或圖像序列的上下文信息,對目標的外觀和運動信息進行建模,從而對目標運動狀態進行預測並標定目標位置的一種技術,是計算機視覺的一個重要基礎問題)
在這裏插入圖片描述
傳統的視覺跟蹤方法利用各種框架(例如DCF),但是這些方法在沒有限制的環境裏不能提供滿意的結果,主要的原因是,使用手工特徵的目標表示和不靈活的目標模型,而基於深度學習的方法可以通過利用/融合 hierarchical feature,利用上下文信息或者運動信息來提高目標表示並且挑選最有判別力和魯棒性的深度特徵。首先,看一下最近幾年深度視覺跟蹤的簡短髮展歷史
在這裏插入圖片描述

基於深度學習的SOTA方法進行分類(詳見論文中的圖)

網絡結構:CNN、SNN、RNN、GAN、custom networks

CNN:
robust target representation
1.incorporating spatial and temporal information to improve model generalization [79], [82], [106], [119], [122],[137], [151], [153]
2.fusion of different deep features to exploit complementary spatial and semantic information [64], [101], [108], [109],[135]
3.learning different target models such as relative model[104] or part-based models [116], [127], [146] to handle partial occlusion and deformation
balancing training data
According to the definition of visual tracking,there is just one positive sample in the first frame that increases the risk of over-fitting.
在這裏插入圖片描述
Computational complexity problem
(利用輕量型結構,利用相關濾波的優勢、壓縮和剪枝訓練採樣空間、有效的更新過程、利用attention機制,進行部分採樣策略、將CNN分成幾個小網絡等)
SNN:
Discriminative target representation:
在這裏插入圖片描述
online update strategies [81], [90], [93], [103], [111], [152],[156], [163],
background suppression [81], [111]],
formulating tracking task as a one-shot local detection task [111], [123],
giving higher weights to important feature channels or score maps [88], [124], [128], [148].

DaSiamRPN and MMLT use a local-to-global search region strategy and memory exploitation to handle critical challenges such as full occlusion and out-of-view and enhance local search strategy.

Balancing traning data:
exploiting multi-stage Siamese framework to stimulate hard negative sampling[157],random sampling[111],flow-guided sampling[133]
RNN:
考慮了目標的motion/movement,並且避免了預訓練CNN模型的fine-tune,但是因爲費勁的訓練和相當多的參數,基於RNN的方法是有限的。大部分所有的這些方法嘗試利用額外的信心和memory來提高目標模型。例如:spatio-temporal representation capturing[84],[139],[175],利用上下文信息來處理背景雜亂,編碼了目標的self-structure[139],利用attention和背景抑制[175],卷積+LSTM[84]
GAN:
增強正樣本,解決訓練樣本不平衡分佈。[121],[136],[164]
Custom Networks:
Computational complexity problem(TRACA[120] and AEPCF[171] 使用了 AEs
Model update:using RL[183],RDT[184]修正關於最好的目標模板決策
Limited traning data:SINT++[58]使用正樣本生成網絡生成正樣本,使用困難正轉化網絡生成困難樣本
Search strategy:
經典的搜索策略基於sliding windows,mean shift,partical filter,而基於深度的方法利用基於RL爲了學習數據驅動的搜索策略。dynamic search process[110] and coarse-to-five verification[166].
Exploiting additional information(motion and contextual):
Decision making(RL):
在這裏插入圖片描述

網絡開發

現有的深度特徵(deep off-the-shelf features)和深度特徵(deep features for visual tracking)

利用多分辨率的深度特徵來進行特徵融合【59—61,64,69,83,109,129,130,143,152,172】,在最後階段融合度特徵和層特徵[109] ,利用motion information[92,106,172,202],爲視覺跟蹤任務挑選合適的深度特徵【61】,但是利用現有的特徵,限制了視覺跟蹤的性能,由於不同任務的目標的不一致性。

網絡訓練

離線訓練(DAF,DMF DCTN)
在線訓練
離線和在線同時訓練(DAF,DMF MGNet\FPRNet )

網絡目標

基於迴歸
aim to directly localize target in the subsequent frames by minimizing a regularized least-squares function[refine the fomulation of L2 or L1 loss functions])
基於分類(二分類)
提取許多proposal BB–object proposal method,挑選最高分數的proposal)
基於分類和迴歸
(ATOM、DIMP、SiamRPN系列【their goal is to bridge the gap between the recent tracking-by-detection and continuous localization process of visual tracking】)BB regression methond【55,68,75,87,101-112,123,137,153,168,173】
在這裏插入圖片描述

網絡輸出

置信圖、Bounding Box、Object score、Action、特徵圖、分割mask

相關濾波優勢 的探索

基於DCF方法、利用相關濾波器、層和函數

跟蹤的數據集

OTB2013 [185], VOT [40]–[46], ALOV[48], OTB2015 [186], TC128 [187], UAV123 [188], NUS-PRO[189], NfS [190], DTB [191], TrackingNet [192], OxUvA [193],BUAA-PRO [194], GOT10k [195], and LaSOT [196]
the VOT toolkit [45] has been modified to qualitatively compare different methods according to the TraX protocol [197]
在這裏插入圖片描述

評價指標(Evaluation Metrics)

performance measures(in terms of accuracy,robustness,and tracking speed) :
CLE(oldest metric)—average Euclidean distance between the groundtruth and estimated 's locations
Accuracy----交併比,考慮了location region,is calculated by the average overlap scores(AOS)
Robustness/failure score—the number of required re-initializations
EAO—combination of accuracy and robustness scores
AUC—average success rate(0-1),sum the AOS
performance plots:
Precision plot—given the CLEs
Success plot–estimated overlaps and the grond-truth ones
Expected average overlap cruve—re-initialize
One-pass evaluation with restart(OPER)

OTB and LaSOT precision and success plots
VOT2018 accuracy,robustness and EAO to provide the Accuracy-Robustness(AR) plots,expected average overlap curve,and ordering

實驗分析

分析了在不同數據集不同的評價指標下最好的5個跟蹤器
最快的跟蹤器:SiamRPN,SiamRPN++,CFNet,DAT,and DCFNet
在不同的數據集下最好的跟蹤器是:VITAL [121], MDNet [68], DAT [137], ASRCF [155],SiamDW-SiamRPN [56], SiamRPN++ [55], C-RPN [157],StructSiam [11 3],SiamMask [57], DaSiamRPN [111], UPDT[109], LSART [127], DeepSTRCF [122], and DRT [126].

然後在不同的數據集不同的挑戰屬性下進行了對比分析,如下:
VOT2018 accuracy OCC,SV,IV (SiamRPN++,SiamMask ,SiamMask)
                 robustness OCC,MOC,IV(DRT,UPDT,SiamMask/CFCF)
OTB2015 precision OV,OCC,LR (ASRCF,ECO,SiamDW-SiamRPN)
                success DEF,OV,LR(SiamRPN++,SiamRPN++,Siam-MCF)
LaSOT precision FM,OV,DEF success FM,OV,FOC(C-RPN,MDNet,VITAL are the top-3 trackers on the LaSOT dataset)

總之,OCC、OV、FM、DEF、IV、LR是基於深度學習跟蹤器最有挑戰性的屬性。

the DCF-based methods have achieved fewer failures among the other methods,while the SNN-based methods have gained more overlap between the estimated BBs and ground-truth ones.

fusion of hand-crafted and deep features [109,122,126]
temporal regularization term [122]
reliability term [126]
data augmentation [109,111]
contextual [56,109,111,113]
temporal information [111,121,122,137]
在這裏插入圖片描述
在這裏插入圖片描述

總結

儘管視覺跟蹤做出了相當大的進步,最好的方法仍然不能處理現實世界的挑戰,主要原因是缺乏情景理解。最好的視覺跟蹤方法仍然不能以一種有意義的方式理解動態場景,立即識別整體結構,推理現有的物體,並且感知不同物體和事物的基本類別。

最後的參考文獻是關鍵呀!!!

補充

下圖展示了各個時間點的代表性算法:
在這裏插入圖片描述
基於生成式的模型的方法不論採用全局特徵還是局部特徵,其本質是在目標表示的高維空間中,找到與目標模型最相鄰的候選目標作爲當前估計,但是它的缺陷是隻關注目標信息而忽略了背景信息,而基於判別式模型的方法同時考慮了目標和背景信息,判別式模型將跟蹤問題看做分類或者回歸問題,目的是尋找一個判別函數,將目標從背景中分離,從而實現對目標的跟蹤。基於迴歸判別模型的典型方法是相關濾波。

除了以上提到的網絡結構,還有AE(自編碼器),由編碼器和解碼器組成。變分自編碼器(VAE)是對其的改進,(AE並不能生成任意的圖片,因爲隱向量無法人工構造,需要通過一幅圖像輸入至編碼器才能得到隱向量,而VAE在編碼過程中會增加限制,迫使其生成的隱向量能夠大致遵循一個標準正態分佈),通過VAE學習到的特徵,可以應用於諸如識別、降噪、表示和可視化等任務中。

上面也提到了RL(強化學習),它主要解決的問題是,對於一個可以感知環境的智能體,通過學習選出能實現目標的最優動作,應用最廣泛的爲Q-learning,然後提出了Deep Q-learning
另外,還可以使用元學習的方法Meta Learning,改方法的主要思想是首先訓練一個好的初始化網絡,在面對新任務時只使用少量數據即可更新出一個適應新任務的網絡。主要做法是使用之前的歷史經驗(如歷史的策略和歷史的軌跡)創建出新的策略。這樣的方式是對於人類思維防水的模仿,即利用歷史經驗來調整策略,從而快速適應環境。MLT(meta learning for real-time visual tracking)方法採用梯度預測的策略自適應更新網絡參數,採用參數化網絡梯度的方法學習網絡模型,從而構建一個元學習網絡。Meta-tracker 方法也採用基於預測梯度的策略學習方法獲得普適性的初始化模型,可以使得跟蹤自適應於後續幀特徵的最佳梯度方向。該方法引入了兩個待學習參數:初始化參數θ0\theta_0 和梯度更新參數α\alpha 。目標跟蹤的元訓練過程主要分爲兩步:1.隨機初始化參數,將第一幀圖像輸入跟蹤模型進行預測,利用預測誤差函數以及梯度更新參數,反覆迭代T次作爲θ1\theta_1;2.檢查參數θ1\theta_1,對後續幀(每次迭代隨機取一幀)的魯棒性,累積損失函數對θ1\theta_1α\alpha的梯度,採用ADMM梯度下降算法優化參數θ0\theta_0α\alpha的梯度。

改善的點:
1.沒次只能對當前幀的跟蹤目標進行建模,沒有考慮當前幀和歷史幀之間的關聯性
2.提取出來的深度特徵往往隨着網絡層數的加深變得高度抽象,丟失了目標自身的結構信息
3.池化操作會降低特徵圖的分辨率,損失了目標的空間位置和局部結構信息
4.只關注目標本身的局部空間區域,忽略了對目標周邊區域的上下文信息進行建模

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章