目標跟蹤

本篇是基於單目標跟蹤的論述

目標跟蹤概述

1.1 定義：

1，單目標，即在給定的視頻中只跟蹤一個目標

2，在第一幀中會通過矩形的bounding box將目標給出。給定後，使用tracker找出每一幀的目標。

3，短期

1.2 目標跟蹤面臨的挑戰有：

1，運動模糊（Motion Blur）

在獲取視頻時由於環境因素，相機抖動或物體運動等多種因素的影響，導致獲取的視頻幀像素退化，這種退化會導致角點，邊緣等顯著特徵受損甚至消失。一般存在兩種情況，當點擴散函數處於未知狀態時，叫做盲去模糊，當點擴散函數已知時叫做非盲去模糊。

2，遮擋（Occlusion）

遮擋是目標跟蹤中比較常見的挑戰因素。遮擋又分爲部分遮擋（Partial Occlusion）和完全遮擋（Full Occlusion）。解決部分遮擋目前較爲常用的大致有兩種思路：（1）利用檢測機制判斷目標是否被遮擋，從而決定是否更新模板，保證模板對遮擋的魯棒性。（2）把目標分成多個塊，利用沒有被遮擋的塊進行有效的跟蹤。而對於完全遮擋目前並沒有特別好的辦法完全解決這個問題。

3，形變（Deformation）（與第一幀差異過大）

通常而言跟蹤的目標並非一層不變的。而跟蹤目標的形變，如果過大則會導致跟蹤發生漂移（Drift）。而解決這個挑戰的主要解決點就在解決漂移問題。常用的方法是更新目標的表觀模型，使其適應表觀的變化。因此面對這個問題時，至關重要的是模型更新方法。能否及時，準時更新，能否確定好更新的頻率變成面對這個挑戰時要關注的問題。

4，尺度變化（Changing In Scale）（鏡頭的拉近或拉遠）

尺度變換是指目標在運動過程中距離拍攝的鏡頭距離的變化而產生的尺度大小的變化現象。由於尺度變換如果不能快速準確的預測出跟蹤目標變化的係數就會影響跟蹤的準確率。現在通常的做法有：（1）在運動模型產生候選樣本的時候，生成大量的尺度大小不等的候選框，選擇最優作爲目標。（2）在多個不同尺度的目標上進行目標跟蹤，產生多個預測結果，選擇其中最優作爲最後的預測目標。

5，快速移動（Fast Motion）

快速移動指的是要跟蹤的目標在接下來的幀中，快速的變換位置。這樣很可能會導致目標丟失，因此也是目標跟蹤的一個比較重要的點。

還有背景雜斑（Background Clutter），光照變化（illumination variation）等其他挑戰。總而言之對於視覺跟蹤而言，由於運動目標的運動場景大多較爲複雜，並且經常發生變化，或者要跟蹤的目標本身也會發生變化。這樣就導致要考慮的問題變成了，如何在複雜變換的場景中識別並跟蹤不斷變化的目標。

經過上述的方法總結就個人而言感覺視覺跟蹤大致有兩個比較困難的點：

1.上述的各個挑戰，由於要考慮的視頻中跟蹤的目標的具體情況不同，所以對應的挑戰也不相同，想要一勞永逸的解決是不現實的。可能一個算法在面對一個挑戰時表現的很好，但面對另一個挑戰時表現的又很差。

2.缺乏訓練樣本，假如我們使用深度學習的方法來進行目標跟蹤。那麼我們需要對應的數據集來訓練網絡，但因爲目標跟蹤任務的特殊性，只有初始幀的圖片數據可以利用，因此缺乏數據供神經網絡學習。

1.3 目標跟蹤方法：

就目前爲止，追蹤器大致分爲兩大類生成性追蹤器和鑑別性追蹤器。

（1）生成性追蹤器（Generative Method）：通過在線學習的方式建立目標模型，然後使用模型搜索重建誤差最小的圖像區域，完成目標定位。這一類方法沒有考慮目標的背景信息，圖像信息沒有得到較好的應用。通俗點講就是在當前幀對目標區域建模，下一幀尋找與模型最相似的區域就是預測位置，比較著名的有卡爾曼濾波，粒子濾波，mean-shift等。

（2）鑑別性追蹤器（Discriminative Method）：將目標跟蹤看作是一個二元分類問題，同時提取目標和背景信息用來訓練分類器，將目標從圖像序列背景中分離出來，從而得到當前幀的目標位置。CV中的經典套路圖像特徵+機器學習，當前幀以目標區域爲正樣本，背景區域爲負樣本，機器學習方法訓練分類器，下一幀用訓練好的分類器找最優區域：與生成類方法最大的區別是，分類器採用機器學習，訓練中用到了背景信息，這樣分類器就能專注區分前景和背景，所以判別類方法普遍都比生成類好。

1.4 跟蹤方法：

稀疏表示(Sparse Representation)：對於生成性追蹤器來說，較爲典型的就是稀疏矩陣了。給定一組過完備字典，將輸入信號用這組過完備字典線性表示，對線性表示的係數做一個稀疏性的約束（即使得係數向量的分量儘可能多的爲0），那麼這一過程就稱爲稀疏表示。基於稀疏表示的目標跟蹤方法則將跟蹤問題轉化爲稀疏逼近問題來求解。但實際上近些年來生成性追蹤器使用的較少。因此係數表示也用的也比較少。基本上相關濾波和深度學習佔據了目標跟蹤的大半。

相關濾波(Correlation Filter)：相關濾波本身源於信號領域。其基本思想爲衡量兩個信號是否相關，兩個信號越相似，那麼相關的操作越強。對於目標跟蹤而言，對應的上一幀得到的目標與下一幀中的區域越相似，響應越高。通常使用卷積表示相關的操作。當其應用到目標跟蹤上時，其基本思想就是，尋找一個濾波模板，讓下一幀的圖像與得到的濾波模板做卷積操作，響應最大的區域就是預測的目標。

深度學習(CNN-Based)：對於神經網絡來說由於CNN引入了卷積層和池化層的概念。而卷積層在輸入的時候不僅考慮到了輸入的值，還可以保持輸入的形狀不變。當輸入數據是圖像時，卷積層會以三維數據的形式接收輸入數據，並且同樣以三維數據的形式輸出至下一層，因此，CNN可以正確理解圖像等具有形狀的數據。所以對於計算機視覺領域有着獨特的優勢。對於檢測，人臉識別等早CNN早以發出自己的聲音。但對於目標跟蹤領域而言，開始並不順暢。正如上文所述由於目標跟蹤的特殊，只有初始幀的圖片數據可以用，所以缺乏大量的數據供神經網絡學習。直到後來將在分類圖象數據集上訓練的卷積神經網絡應用到目標跟蹤上後，基於深度學習的目標跟蹤方法纔得到充分的發展。

1.5 數據集：

OTB：OTB分爲OTB50和OTB100，其中OTB100包含OTB50，該數據集的特點是人工標註的groundtruth，同時包含有25%的灰度數據集。

VOT：本身是競賽數據集更具有代表性。同時VOT每年更新。

VOT與OTB的區別：這兩個數據集都是目標跟蹤常用的數據集，但還有一定的差別。

（1）OTB包括有25%的灰度序列，但VOT都是彩色序列，這也導致了很多顏色特徵算法性能的差異。

（2）兩個庫的評價標準也不一樣。

（3）OTB有隨機幀開始，或者矩形框加隨機干擾初始化去跑，但VOT是第一幀初始化跑，每次跟蹤失敗時，5幀之後重新初始化，VOT以短時跟蹤爲主，並且認爲跟蹤監測應該在一起不分離，detecter會多次初始化tracker。

目標跟蹤基本流程

2.1 基本流程

單目標視覺跟蹤的任務就是在給定某一個視頻序列初始幀的目標大小與位置的情況下，預測後續幀中該目標的大小與位置，其基本流程如下圖所示：

輸入初始化目標框，在下一幀中產生衆多候選框（Motion Model），提取候選框的特徵（Feature Extractor），然後對這些候選框評分（OBservation Model），最後在這些評分中找到一個最高得分的候選框作爲預測的目標（Prediction A），或者對多個預測值進行融合（Ensemble）提高準確率。

基於上述過程將該流程大致分爲以下五個模塊進行研究：

1.運動模型（Motion Model）：基於對前一幀的估計，運動模型生成一組可能包含當前幀中目標的候選區域或包圍盒。

運動模型旨在描述幀與幀目標運動狀態之間的關係，顯式或隱式地在視頻幀中預測目標圖像區域，並給出一組可能的候選區域。常用的有兩種方法：粒子濾波和滑動窗口。其中粒子濾波是一種序貫貝葉斯推斷方法，通過遞歸的方式推斷目標的隱含狀態。滑動窗口是一種窮舉搜索方法，它列出目標附近的所有可能的樣本作爲候選樣本。

2.特徵提取（Feature Extractor）：徵提取器使用一些特徵表示候選集中的每個候選者。

適用於目標跟蹤的特徵一般要求，既能較好地描述跟蹤目標又能快速計算。常用的特徵也被分成兩類：手工設計的特徵和深度特徵。常用的手工設計的特徵有：灰度特徵，顏色特徵，紋理特徵等。而深度特徵則是通過大量的訓練樣本學習出來的特徵，更具有鑑別性。

3.觀測模型（Observation Model）：觀察模型根據從候選人中提取的特徵判斷候選人是否是目標。

觀測模型返回給定目標候選人的置信度，因此通常被認爲是跟蹤器的關鍵部件。與特徵提取器和觀察模型組件相比，運動模型對性能的影響一般很小。然而，在尺度變化和快速運動的情況下，合理地設置參數仍然是獲得良好性能的關鍵。如上文中提到的，追蹤器大致分爲兩大類生成性追蹤器和鑑別性追蹤器一致。觀測模型可分爲兩類即生成式模型和鑑別式模型，生成式模型通常尋找與目標模板最爲相似的候選作爲跟蹤結果，可簡單視爲模板匹配。較爲常用爲上文中提到的稀疏表示。而鑑別式模型則通過訓練一個分類器去區分目標與背景，選擇置信度最高的候選樣本作爲預測結果。判別式方法已經成爲目標跟蹤中的主流方法，如上文中提到的相關濾波，深度學習。

4.模型更新（Model Update）:模型更新器控制更新觀測模型的策略和頻率。它必須在模型適應和漂移之間取得平衡。

爲了捕捉目標( 和背景) 在跟蹤過程中的變化，目標跟蹤需要包含一個在線更新機制，在跟蹤過程中不斷更新外觀模型。在本文中考慮兩種方法。1.每當目標可信度低於閾值時更新模型。這樣做可以確保目標始終具有很高的信心。 2.當目標的置信度與背景樣本的置信度之差低於閾值時，對模型進行更新。這種策略只是在正面和負面的例子之間保持足夠大的差距，而不是強迫目標有很高的信心。

5.集成結果處理（Ensemble Method）：當一個跟蹤系統由多個跟蹤器組成時，集成後處理器獲取組成跟蹤器的輸出，並使用集成學習方法將它們組合成最終結果。

單個跟蹤器的結果有時可能非常不穩定，因爲即使在很小的擾動下，性能也會發生很大的變化。參數採用集成方法的目的就是爲了克服這一限制。

2.2 總結

由上述的過程可得知模塊之間的關係爲：運動模型負責描述幀與幀目標運動狀態之間的關係，給出一組目標可能會出現的候選區域。特徵提取則能夠很好的跟隨目標同時又保證計算較爲簡潔。而觀測模型作用於當前幀，用來判斷區域內是否是要跟蹤的目標。因爲在較長的跟蹤過程中目標的特徵可能會出現變化，因此需要一個目標更新模塊來不時的對觀測模型進行實時更新以此來確保跟蹤目標的正確性。而單個跟蹤器其結果不確定。並不能一定確保跟蹤的穩定性。所以需要集成結果處理來確保結果的穩定性。