【深度學習】深度多目標跟蹤算法綜述

1、導言

基於深度學習的算法在圖像和視頻識別任務中取得了廣泛的應用和突破性的進展。從圖像分類問題到行人重識別問題,深度學習方法相比傳統方法表現出極大的優勢。與行人重識別問題緊密相關的是行人的多目標跟蹤問題。

在多目標跟蹤問題中,算法需要根據每一幀圖像中目標的檢測結果,匹配已有的目標軌跡;對於新出現的目標,需要生成新的目標;對於已經離開攝像機視野的目標,需要終止軌跡的跟蹤。這一過程中,目標與檢測的匹配可以看作爲目標的重識別,例如,當跟蹤多個行人時,把已有的軌跡的行人圖像集合看作爲圖像庫(gallery),而檢測圖像看作爲查詢圖像(query),檢測與軌跡的匹配關聯過程可以看作由查詢圖像檢索圖像庫的過程。如圖1。

圖1:把檢測圖像看作查詢圖像(query),行人軌跡中的圖像看作圖像庫(gallery),多目標跟蹤中的匹配過程可以看作爲行人重識別。

與傳統的行人重識別不同的是,行人多目標跟蹤中的檢測與行人軌跡的匹配關聯問題更加複雜,具體表現在下面三個方面:首先,多目標跟蹤中的目標軌跡是頻繁發生變化的,圖像樣本庫的數量和種類並不固定。其次,檢測結果中可能出現新的目標,也可能不包括已有的目標軌跡。另外,檢測圖像並不像傳統行人重識別中的查詢圖像都是比較準確的檢測結果,通常,行人多目標跟蹤場景下的檢測結果混雜了一些錯誤的檢測(false-alarms),而由於背景以及目標之間的交互,跟蹤中的行人檢測可能出現圖像不對齊、多個檢測對應同一目標、以及一個檢測覆蓋了多個目標這些情況。如圖2中所示爲ACF行人檢測算法的結果。

如何擴展深度學習在行人重識別問題中的研究成果到多目標跟蹤領域,研究適用於多目標跟蹤問題的深度學習算法是具有挑戰性的問題。近年來,在計算機視覺頂級會議和期刊上,研究者從各方面提出了一些解決方案,發表了一些新的算法試圖解決這個問題。在這篇文章中,SIGAI將和大家一起對基於深度學習的視覺多目標跟蹤算法進行總結和歸納,以幫助理解基於深度學習框架的多目標跟蹤算法的原理和相對於傳統算法的優勢,如果對本文的觀點持有不同的意見,歡迎向我們的公衆號發消息一起討論。

圖2:多目標跟蹤場景下行人的檢測結果。

綠色矩形框表示存在的檢測結果不準確的情況。藍色矩形框是檢測結果基本準確的示例。當目標特徵與檢測器模型樣本分佈相差較大時,存在檢測失敗的情況。

2、基於深度學習的多目標跟蹤算法分類

多目標跟蹤算法按照軌跡生成的順序可以分爲離線的多目標跟蹤和在線的多目標跟蹤算法。離線方式的多目標跟蹤算法通常構造爲目標檢測關係的圖模型,其中設計和計算檢測之間的相似度或者距離度量是決定圖模型構造正確性的關鍵。在線方式的多目標跟蹤算法根據當前檢測觀測,計算與已有軌跡的匹配關係,計算合適的匹配度量決定了匹配的正確性。因此,無論是離線方式的多目標跟蹤還是在線方式的多目標跟蹤算法,學習檢測結果的特徵並計算匹配相似度或者距離度量都是多目標跟蹤算法的關鍵步驟。

基於深度學習的多目標跟蹤算法的主要任務是優化檢測之間相似性或距離度量的設計。根據學習特徵的不同,基於深度學習的多目標跟蹤可以分爲表觀特徵的深度學習,基於相似性度量的深度學習,以及基於高階匹配特徵的深度學習(如圖3)。

圖3:按照深度學習目標和應用對基於深度學習的多目標跟蹤算法進行分類。

利用深度神經網絡學習目標檢測的表觀特徵是簡單有效的提升多目標跟蹤算法的方法。例如利用圖像識別或者行人重識別任務中學習到的深度特徵直接替換現有多目標跟蹤算法框架中的表觀特徵[1],或者採用深度神經網絡學習光流運動特徵,計算運動相關性[2]。採用深度學習提升多目標跟蹤算法更加直接的方法是學習檢測之間的特徵相似性,比如設計深度網絡計算不同檢測的距離函數,相同目標的檢測距離小,不同目標的檢測距離大,從而構造關於檢測距離的代價函數[3]。也可以設計二類分類代價,使相同目標的檢測特徵匹配類型爲1,而不同目標的檢測特徵匹配類型爲0,從而學習並輸出(0,1]之間的檢測匹配度[4]。如果考慮已有軌跡與檢測之間的匹配或者軌跡之間的匹配,採用深度學習方法可以用於設計並計算軌跡之間的匹配相似度,這種方法可以認爲是基於深度學習的高階特徵匹配方法。採用深度學習計算高階特徵匹配可以學習多幀表觀特徵的高階匹配相似性[5],也可以學習運動特徵的匹配相關度[6]。

下面我們對一些基於深度學習的多目標跟蹤算法進行概要介紹。

3、深度視覺多目標跟蹤算法介紹

3.1 基於對稱網絡的多目標跟蹤算法

一種檢測匹配度量學習方法是採用Siamese對稱卷積網絡,以兩個尺寸相同的檢測圖像塊作爲輸入,輸出爲這兩個圖像塊是否屬於同一個目標的判別[3]。通常有三種拓撲形式的Siamese網絡結構,如圖4。

圖4:三種Siamese網絡拓撲結構。第一種結構,輸入A和B經過相同參數的網絡分支,對提取的特徵計算他們的距離度量作爲代價函數,以使得相同對象的距離接近,而不同對象的距離變大。第二種結構,輸入A和B經過部分相同參數的網絡分支,對生成的特徵進行合併,新的特徵進行多層卷積濾波之後輸入代價函數作爲輸出。第三種結構,對輸入A和B疊加組合作爲新的網絡輸入,通過網絡濾波生成輸出。

經過實驗表明,第三種網絡結構能夠生成更好的判別結果。因此,在文獻[3]中,Lealtaixe等人採用第三種拓撲形式的Siamese網絡訓練並計算兩個檢測的匹配相似度,原始的檢測特徵包括正則化的LUV圖像I1I2,以及具有x,y方向分量的光流圖像O1O2,把這些圖像縮放到121x53,並且疊加到一起構成10個通道的網絡輸入特徵。卷積網絡由3個卷積層(Conv-Layer)、4個全連接層(FC-Layer)以及2元分類損失層(binary-softmax-loss)組成,如圖5。損失函數爲:

其中 Φ(d1d2)表示兩個檢測d1d2,經過卷積之後的輸出特徵。y表示是否對應相同目標,如果d1d2來自同一個目標的檢測,y=1;否則y=0。

爲了學習這個網絡,作者從真實跟蹤數據中抽取訓練樣本,從利用檢測算法得到同一個軌跡的檢測對作爲正樣本,從不同軌跡中得到檢測作爲負樣本,爲了增加樣本多樣性,增強分類器的泛化能力,負樣本還包括從檢測周圍隨機採集的重疊率較小的圖像塊。

學習過程採用經典的帶有動量的隨機梯度反向傳播算法。最小批大小選擇爲128,學習率初始爲0.01。通過50個回合的訓練,可以得到較爲優化的網絡參數。

在Siamese網絡學習完成之後,作者採用第六層全連接網絡的輸出作爲表觀特徵,爲了融合運動信息,作者又設計了6維運動上下文特徵:尺寸相對變化,位置相對變化,以及速度相對變化。通過經典的梯度下降提升算法學習集成分類器。

圖5:採用Siamese對稱網絡學習表觀特徵相似度,並通過基於梯度下降提升算法的分類器融合運動特徵,得到融合運動和表觀特徵的相似度判別。並利用線性規劃優化算法得到多目標跟蹤結果。

多目標跟蹤的過程採用全局最優算法框架,通過對每兩個檢測建立連接關係,生成匹配圖,計算他們的匹配狀態。通過最小代價網絡流轉化爲線性規劃進行求解。

3.2 基於最小多割圖模型的多目標跟蹤算法

上述算法中爲了匹配兩個檢測採用LUV圖像格式以及光流圖像。Tang等人在文獻[2]中發現採用深度學習計算的類光流特徵(DeepMatching),結合表示能力更強的模型也可以得到效果很好的多目標跟蹤結果。

在文獻[2]中,作者通過觀察目標跟蹤問題中的檢測結果,發現僅僅考慮兩幀之間的檢測匹配不是最佳的模型表示。如圖6,由於存在很多檢測不準確的情況,同時考慮圖像之間以及圖像內部的檢測匹配關係,並建立相應的圖模型比僅僅考濾幀間檢測匹配的圖模型具有更廣泛的表示能力。

圖6:上圖是三幀圖像中的檢測結果,爲了建立更準確的匹配模型,除了建立兩幀之間的匹配關係,還需要考慮同一幅圖像內,是否存在同一個目標對應多個檢測的情況。下圖是構造的幀間及幀內連接圖模型。

類似於最小代價流模型求解多目標跟蹤算法,這種考慮了幀內匹配的圖模型可以模型化爲圖的最小多割問題,如下公式所示:

上式中Ce表示每個邊的代價,這裏用檢測之間的相似度計算。x=0表示節點屬於同一個目標,x=1反之。這個二元線性規劃問題的約束條件表示,對於任何存在的環路,如果存在一個連接x=0,那麼這個環上的其他路徑都是x=0。即,對於優化結果中的0環路,他們都在同一個目標中。所以x=1表示了不同目標的分割,因此這個問題轉化爲了圖的最小多割問題。對於最小代價多割問題的求解,可以採用KLj算法進行求解[7]。

現在的問題是如何計算幀內及幀間檢測配對的匹配度量特徵。作者採用了深度學習算法框架計算的光流特徵(DeepMatching)作爲匹配特徵[8]。圖7是採用DeepMatching方法計算的深度光流特徵示例。

圖7: 利用DeepMatching算法計算的深度光流特徵,藍色箭頭表示匹配上的點對。

基於DeepMatching特徵,可以構造下列5維特徵:

其中MI,MU表示檢測矩形框中匹配的點的交集大小以及並集大小,ξv和ξw表示檢測信任度。利用這5維特徵可以學習一個邏輯迴歸分類器。並得到是相同目標的概率Pe,從而計算公式(2)中的代價函數:

爲了連接長間隔的檢測匹配,增強對遮擋的處理能力,同時避免表觀形似但是不同目標檢測之間的連接,Tang等人在最小代價多割圖模型的基礎上提出了基於提升邊(lifted edges)的最小代價多割圖模型[9]。基本的思想是,擴展原來多割公式(2)的約束條件,把圖中節點的連接分爲常規邊和提升邊,常規邊記錄短期匹配狀態,提升邊記錄長期相似檢測之間的匹配關係。除了原來公式(2)中的約束,又增加了2個針對提升邊的約束,即(1)對於提升邊是正確匹配的,應該有常規邊上正確匹配的支持;(2)對於提升邊是割邊的情況,也應該有常規邊上連續的割邊的支持。如圖8。

圖8: (a)和(c)是傳統的最小代價多割圖模型。(b)和(d)是增加了提升邊(綠色邊)的最小多割圖模型。通過增加提升邊約束,圖中(b)中的提升邊可以被識別爲割,而(d)中的邊被識別爲鏈接。

同樣,爲了計算邊的匹配代價,需要設計匹配特徵。這裏,作者採用結合姿態對齊的疊加Siamese網絡計算匹配相似度,如圖9,採用的網絡模型StackNetPose具有最好的重識別性能。

圖9: (a),(b),(c)分別爲SiameseNet, StackNet, StackNetPose模型。(e)爲這三種模型與ID-Net在行人重識別任務上對比。(d)爲StackNetPose的結果示例。

綜合StackNetPose網絡匹配信任度、深度光流特徵(deepMatching)和時空相關度,作者設計了新的匹配特徵向量。類似於[2], 計算邏輯迴歸匹配概率。最終的跟蹤結果取得了非常突出的進步。在MOT2016測試數據上的結果如下表:

表1:基於提升邊的最小代價多割算法在MOT2016測試數據集中的跟蹤性能評測結果。

3.3 通過時空域關注模型學習多目標跟蹤算法

除了採用解決目標重識別問題的深度網絡架構學習檢測匹配特徵,還可以根據多目標跟蹤場景的特點,設計合適的深度網絡模型來學習檢測匹配特徵。Chu等人對行人多目標跟蹤問題中跟蹤算法發生漂移進行統計分析,發現不同行人發生交互時,互相遮擋是跟蹤算法產生漂移的重要原因[4]。如圖10。

圖10:當2個目標的運動發生交互的時候,被遮擋目標不能分辨正確匹配,導致跟蹤漂移。

針對這個問題,文獻[4]提出了基於空間時間關注模型(STAM)用於學習遮擋情況,並判別可能出現的干擾目標。如圖11,空間關注模型用於生成遮擋發生時的特徵權重,當候選檢測特徵加權之後,通過分類器進行選擇得到估計的目標跟蹤結果,時間關注模型加權歷史樣本和當前樣本,從而得到加權的損失函數,用於在線更新目標模型。

圖11:用於遮擋判別的STAM模型框架,採用空間注意模型加權檢測結果的特徵,通過歷史樣本、以及圍繞當前跟蹤結果採集的正、負樣本,來在線更新目標模型。

在這個模型中每個目標獨立管理並更新自己的空間時間關注模型以及特徵模型,並選擇候選檢測進行跟蹤,因此本質上,這種方法是對單目標跟蹤算法在多目標跟蹤中的擴展。爲了區分不同的目標,關鍵的步驟是如何對遮擋狀態進行建模和區分接近的不同目標。

這裏空間注意模型用於對每個時刻的遮擋狀態進行分析,空間關注模型如圖12中下圖所示。主要分爲三個部分,第一步是學習特徵可見圖(visibility map):

這裏fvis是一個卷積層和全連接層的網絡操作。wvisi是需要學習的參數。

第二步是根據特徵可見圖,計算空間關注圖(Spatial Attention):

其中fatt是一個局部連接的卷積和打分操作。wtji是學習到的參數。

圖12:採用空間注意模型網絡架構學習遮擋狀態,並用於每個樣本特徵的加權和打分。

第三步根據空間注意圖加權原特徵圖:

對生成的加權特徵圖進行卷積和全連接網絡操作,生成二元分類器判別是否是目標自身。最後用得到分類打分選擇最優的跟蹤結果。

3.4 基於循環網絡判別融合表觀運動交互的多目標跟蹤算法

上面介紹的算法採用的深度網絡模型都是基於卷積網絡結構,由於目標跟蹤是通過歷史軌跡信息來判斷新的目標狀態,因此,設計能夠記憶歷史信息並根據歷史信息來學習匹配相似性度量的網絡結構來增強多目標跟蹤的性能也是比較可行的算法框架。

在文獻[5]中,Sadeghian等人設計了基於長短期記憶循環網絡模型(LSTM)的特徵融合算法來學習軌跡歷史信息與當前檢測之間的匹配相似度。如圖13。

圖13:軌跡目標與檢測的匹配需要採用三種特徵(表觀特徵、運動特徵、交互特徵)融合(左),爲了融合三種特徵採用分層的LSTM模型(中),最終匹配通過相似度的二部圖匹配算法實現(右)。

文獻[5]中,考慮從三個方面特徵計算軌跡歷史信息與檢測的匹配:表觀特徵,運動特徵,以及交互模式特徵。這三個方面的特徵融合以分層方式計算。

在底層的特徵匹配計算中,三個特徵都採用了長短期記憶模型(LSTM)。對於表觀特徵,首先採用VGG-16卷積網絡生成500維的特徵ϕtA,以這個特徵作爲LSTM的輸入計算循環。

圖14:基於CNN模型和LSTM模型的軌跡與檢測表觀特徵匹配架構。

網絡的輸出特徵ϕt,對於當前檢測BBjt+1,計算同樣維度的特徵ϕj,連接這兩個特徵並通過全鏈接網絡層計算500維特徵ϕA,根據是否匹配學習分類器,並預訓練這個網絡(圖14)。

對於運動特徵,取相對位移vit爲基本輸入特徵,直接輸入LSTM模型計算沒時刻的輸出ϕi,對於下一時刻的檢測同樣計算相對位移vjt+1,通過全連接網絡計算特徵ϕj,類似於表觀特徵計算500維特徵ϕm,並利用二元匹配分類器進行網絡的預訓練(圖15)。

圖15:基於LSTM模型的軌跡運動特徵匹配架構。

對於交互特徵,取以目標中心位置周圍矩形領域內其他目標所佔的相對位置映射圖作爲LSTM模型的輸入特徵,計算輸出特徵ϕi,對於t+1時刻的檢測計算類似的相對位置映射圖爲特徵,通過全連接網絡計算特徵ϕj,類似於運動模型,通過全連接網絡計算500維特徵ϕI,進行同樣的分類訓練(圖16)。

圖16:基於LSTM模型的目標交互特徵匹配架構。

當三個特徵ϕA,ϕM,ϕI都計算之後拼接爲完整的特徵,輸入到上層的LSTM網絡,對輸出的向量進行全連接計算,然後用於匹配分類,匹配正確爲1,否則爲0。對於最後的網絡結構,還需要進行微調,以優化整體網絡性能。最後的分類打分看作爲相似度用於檢測與軌跡目標的匹配計算。最終的跟蹤框架採用在線的檢測與軌跡匹配方法進行計算。

3.5 基於雙線性長短期循環網絡模型的多目標跟蹤算法

在循環網絡判別融合表觀運動交互的多目標跟蹤算法中,作者採用LSTM作爲表觀模型、運動模型以及交互模型的歷史信息模型表示。在對LSTM中各個門函數的設計進行分析之後,Kim等人認爲僅僅用基本的LSTM模型對於表觀特徵並不是最佳的方案,在文獻[10]中,Kim等人設計了基於雙線性LSTM的表觀特徵學習網絡模型。

如圖17中,除了利用傳統的LSTM進行匹配學習,或者類似[5]中的算法,拼接LSTM輸出與輸入特徵,作者設計了基於乘法的雙線性LSTM模型,利用LSTM的隱含層特徵(記憶)信息與輸入的乘積作爲特徵,進行匹配分類器的學習。

圖17:三種基於LSTM的匹配模型。(a)利用隱含層(記憶信息)與輸入特徵乘積作爲分類特徵。(b)直接拼接隱含層特徵與輸入特徵作爲新的特徵進行分類學習。(c)使用傳統LSTM模型的隱含層進行特徵學習。

這裏對於隱含層特徵ht-1,必須先進行重新排列(reshape)操作,然後才能乘以輸入的特徵向量xt,如下公式:

其中f表示非線性激活函數,mt是新的特徵輸入。而原始的檢測圖像採用ResNet50提取2048維的特徵,並通過全連接降爲256維。下表中對於不同網絡結構、網絡特徵維度、以及不同LSTM歷史長度時,表觀特徵的學習對跟蹤性能的影響做了驗證。

表2:(左)三種網絡結構對跟蹤性能的影響, Baseline1和Baseline2分別對應圖17中的中間圖結構和右圖結構。(中)不同網絡隱含層維度對性能的影響。(右)不同歷史信息長度對跟蹤性能的影響。

可以看出採用雙線性LSTM(bilinear LSTM)的表觀特徵性能最好,此時的歷史相關長度最佳爲40,這個值遠遠超過文獻[5]中的2-4幀歷史長度。相對來說40幀歷史信息影響更接近人類的直覺。

作者通過對比遞推最小二乘公式建模表觀特徵的結果,認爲雙線性LSTM模型對於表觀模型的長期歷史特徵建模比簡單的LSTM更具有可解釋性,而對於運動特徵,原始的LSTM特徵表現的更好。綜合雙線性LSTM表觀模型和LSTM運動模型,作者提出了新的基於MHT框架的跟蹤算法MHT-bLSTM,得到的性能如下表:

表3:在MOT2017和MOT2016中多目標跟蹤算法比較。在IDF1評測指標上,MHT-bLSTM的性能最佳。

4、基於深度學習的視覺多目標跟蹤算法討論

上文我們討論了視覺多目標跟蹤領域中,深度學習算法近年來的發展。從直接擴展行人重識別任務中深度學習算法的網絡模型,深度學習被證明在多目標跟蹤領域中是確實可行的特徵學習和特徵匹配算法,對於提升跟蹤性能可以起到非常重要的作用。目前的基於深度學習的多目標跟蹤框架在以下兩個方向取得了較好的進展:(1)結合多目標跟蹤場景的網絡設計,比如在文獻[4]中考慮多目標交互的情況設計網絡架構,這種考慮跟蹤場景的網絡設計對於跟蹤結果有明顯提升。(2)採用循環神經網絡的深度學習應用,比如文獻[5]和[10],討論歷史信息對跟蹤中軌跡特徵的描述,是研究跟蹤問題的一個重要方向。

從跟蹤結果來看,即使採用簡單的重識別網絡特徵以及光流特徵,如果使用優化的全局跟蹤框架,也能夠得到比使用複雜的網絡架構更好的結果。例如使用提升邊建模長期鏈接的多割圖模型,對於跟蹤過程中目標的檢測錯誤和檢測不準確具有很好的補償作用,可以提升正確檢測聚類的性能。而使用循環網絡模型對於運動特徵的長期匹配相似度計算也是非常有效的。比較上文中討論的兩種循環網絡的使用,由於缺少交互特徵,基於雙線性LSTM的方法比特徵融合的方法具有一定的性能損失。 因此, 嘗試在網絡模型中加入交互特徵的建模,對於多目標跟蹤結果具有一定的性能提升。

5、基於深度學習的視覺多目標跟蹤發展趨勢

近年來,基於深度學習的單目標跟蹤算法取得了長足的進步。相對來說,深度學習在多目標跟蹤領域的應用,比較多的侷限於匹配度量的學習。主要的原因是,在圖像識別領域中,例如圖像分類、行人重識別問題中,深度學習取得的進展能夠較好的直接應用於多目標跟蹤問題。然而,考慮對象到之間的交互以及跟蹤場景複雜性,多目標跟蹤問題中深度學習算法的應用還遠沒有達到充分的研究。隨着深度學習領域理論的深入研究和發展,近年來基於生成式網絡模型和基於強化學習的深度學習越來越得到大家的關注,在多目標跟蹤領域中,由於場景的複雜性,研究如何採用生成式網絡模型和深度強化學習來學習跟蹤場景的適應性,提升跟蹤算法的性能是未來深度學習多目標跟蹤領域研究的趨勢。

參考文獻

[1] C. Kim, F. Li, A. Ciptadi, and J. Rehg. Multiple Hypothesis Tracking Revisited. In ICCV, 2015.

[2] S. Tang, B. Andres, M. Andriluka, and B. Schiele. Multi-person tracking by multicut and deep matching. In ECCV Workshops, 2016.

[3] L. Lealtaixe, C. Cantonferrer, and K. Schindler, “Learning by tracking: Siamese CNN for robust target association,” in Proceedings of Computer Vision and Pattern Recognition. 2016.

[4] Q. Chu, W. Ouyang, H. Li, X. Wang, B. Liu, N. Yu. "Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention Mechanism", ICCV 2017.

[5] A. Sadeghian, A. Alahi, and S. Savarese. "Tracking the untrackable: Learning to track multiple cues with long-term dependencies", ICCV2017.

[6] K. Fang, Y. Xiang, X. Li and S. Savarese, "Recurrent Autoregressive Networks for Online Multi-Object Tracking", In IEEE Winter Conference on Applications of Computer Vision 2018.

[7] M. Keuper, E. Levinkov, N. Bonneel, G. Lavou´e, T. Brox, B. Andres. "Efficient decomposition of image and mesh graphs by lifted multicuts", ICCV 2015.

[8] P. Weinzaepfel, J. Revaud, Z. Harchaoui, C. Schmid. "DeepFlow: large displacement optical flow with deep matching", In ICCV 2013.

[9] S. Tang, M. Andriluka, B. Andres, and B. Schiele. Multiple People Tracking with Lifted Multi-cut and Person Re-identification. In CVPR, 2017.

[10] C. Kim, F. Li, and J. M. Rehg, "Multi-object Tracking with Neural Gating Using Bilinear LSTM", in ECCV 2018.


免責聲明:本文系網絡轉載,版權歸原作者所有。如涉及版權,請聯繫刪除!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章