MOT榜前算法探討

    復工了,久違了。

    目標跟蹤一直是計算機視覺裏無法迴避的課題,無論是單目標跟蹤SOT還是今天要討論的多目標跟蹤MOT,是視頻理解裏的重要組成部分。其任務一般包括單目標跟蹤(SOT,Single Object Tracking),多目標跟蹤(MOT,Multi-Object Tracking),視頻目標分割(VOS,Video Object Segmentation)等。今天我們主要討論下多目標跟蹤MOT相關論文框架和代碼資源列表,單目標跟蹤,相對簡單點,本來也打算專門開一個版本介紹,沒辦法復工後有點懶了,後面再看吧,飆淚笑...

現狀

    當前的多目標跟蹤算法主流是基於檢測的框架,即Detection based Tracking(DBT),所以檢測的質量對於跟蹤的性能影響是很大的。那麼在MOT Challenge上也分別設置了兩種賽道,一種是採用官方提供的幾種公共檢測器的結果,即public賽道,一種是允許參賽者使用自己的檢測器,即private賽道。

任務介紹

數學上來看,可以定義如下:    

 

多目標跟蹤問題最早出現在雷達信號中目標運動軌跡的跟蹤,如同時跟蹤飛過來的多架敵人的飛機和多枚導彈。這些算法後來被借鑑用於機器視覺領域的多目標跟蹤任務,隨着計算機視覺領域的深入研究,近年來研究者對多目標跟蹤算法從不同的方面進行了擴展。比如通過擴展單目標跟蹤算法來支持多目標的情況,更多的工作從整個視頻場景出發,對所有的目標軌跡做了統一的考慮。根據不同的分類標準,多目標跟蹤算法有不同的分類方法。比如按照預測校正的跟蹤和按照關聯方式的跟蹤,按照離線方式的關聯跟蹤和按照在線方式的跟蹤,按照確定性推導的跟蹤算法和按照概率統計最大化的跟蹤等。

按照軌跡形成的時間順序,多目標跟蹤可以分爲在線方式的跟蹤算法以及離線形式的跟蹤過程。如果跟蹤的順序是逐幀方式的:即爲在線方式的目標跟蹤方法。在線多目標跟蹤與人眼實時跟蹤目標過程類似,是對每個目標的狀態進行估計,然後考慮整體狀態的合理性進行約束。這個過程也可以簡化爲:獲得每幀圖像檢測結果,把檢測結果同已有的跟蹤軌跡進行關聯。如果跟蹤算法運行是在視頻已經獲取結束,所有檢測結果都已經提前獲取情況下,這種跟蹤方法爲離線形式的多目標跟蹤。離線多目標跟蹤算法把檢測結果集合作爲觀察,把軌跡看作檢測集合的一種劃分,因此跟蹤問題轉化爲子集優化的過程。

 

相關任務:

preview

 

更多介紹參見我的這篇文章。

算法探討

1.Tracking without bells and whistles(Tracktor++)

作者:Philipp Bergmann,Tim Meinhardt,Laura Leal-Taixe 備註信息:ICCV2019,MOT15~17: 46.6, 56.2. 56.3 MOTA(public) 論文鏈接:https://arxiv.org/pdf/1903.05625.pdf 代碼鏈接:https://github.com/phil-bergmann/tracking_wo_bnw

Tracktor++算法是去年出現的一類全新的聯合檢測和跟蹤的框架,這類框架與MOTDT框架最大的不同在於,檢測部分不僅僅用於前景和背景的進一步分類,還利用迴歸對目標進行了進一步修正,因此關於這類框架屬於public還是private得爭論也存在,這裏我們就不做過多的討論了。

只要熟悉兩階段目標檢測算法的應該都能理解這個算法,其核心在於利用跟蹤框和觀測框代替原有的RPN模塊,從而得到真正的觀測框,最後利用數據關聯實現跟蹤框和觀測框的匹配。流程圖如下:

 

有了檢測模塊的加持,自然對於檢測質量進行了增強,所以效果也得到了大幅提升:

可以看到,DPM、FRCNN和SDP三種檢測器輸入下的性能差距不大,然而DPM檢測器的性能是很差的,所以Tracktor++這類算法對於平衡檢測輸入的效果提升很大。

 

2.Multiple Object Tracking by Flowing and Fusing(FFT)

作者:Jimuyang Zhang, Sanping Zhou, Xin Chang, Fangbin Wan, Jinjun Wang, Yang Wu, Dong Huang 備註信息:MOT15~17: 46.3, 56.5. 56.5 MOTA(public) 論文鏈接:https://arxiv.org/abs/2001.11180

這篇文章也是基於Tracktor++的模式,做了很直接的一步操作,即直接增加一個光流預測分支,將Tracktor++中的跟蹤框+觀測框變成了光流預測框+觀測框。注:在MOT17等數據集上表現SOTA!優於Tracktor、LSSTO和FAMNet等網絡

 

好處在於光流網絡和Faster RCNN可以聯合訓練,在訓練的時候RPN保留,不過從論文來看光流部分好像是固定權重的,其效果相對來說的確更好了:

 

3.Tracking Objects as Points(CenterTrack)

作者:Xingyi Zhou(CenterNet的作者), Vladlen Koltun, and Philipp Krähenbühl 備註信息:同時實現了2D/3D多目標跟蹤,包含人和車輛,MOT17:61.4(public)、67.3(private) MOTA, 22FPS!!! KITTI:89.4MOTA 論文鏈接:http://arxiv.org/abs/2004.01177 代碼鏈接:https://github.com/xingyizhou/CenterTrack

CenterTrack是CenterNet作者基於Tracktor++這類跟蹤機制,通過將Faster RCNN換成CenterNet實現的一種多目標跟蹤框架,因此跟蹤框也就變成了跟蹤中心點。

通過上圖我們可以大致分析出算法框架,除了對相鄰兩幀利用CenterNet進行檢測之外,還利用了D&T框架的策略,預測同時存在於兩幀中目標的相對位移,由此進行跟蹤預測。對於提供的觀測框,作者通過將這些觀測框的中心點映射到一張單通道的heatmap上,然後利用高斯模糊的方式將點的附近區域也考慮進去。

因此CenterTrack相對於CenterNet的不同之處在於,輸入維度增加了(兩幅3維圖像和一張觀測位置heatmap),輸出變成了兩張圖像的目標中心位置、大小和相對偏移。

對於測試環節的數據關聯部分,作者直接通過中心點的距離來判斷是否匹配,是一種貪婪的方式,並非匈牙利算法那種全局的數據關聯優化。在訓練過程中,作者並非只用相鄰幀進行訓練,允許跨3幀。

CenterTrack在MOT、KITTI和nuScenes等數據集上的2D/3D多行人/車輛跟蹤任務上均取得了SOTA的成績。

 

4.Towards Real-Time Multi-Object Tracking(JDE)

作者:Zhongdao Wang,Liang Zheng,Yixuan Liu,Shengjin Wang 備註信息:MOT16 74.8 MOTA(private), 22FPS!! 論文鏈接:https://arxiv.org/pdf/1909.12605v1.pdf 代碼鏈接:https://github.com/Zhongdao/Towards-Realtime-MOT

JDE這篇跟這次的主題不是很相符,但是考慮到這也是近期比較熱門的實時多目標跟蹤算法,我們也一起講。它的框架出發點是爲了增加特徵的複用性,基於檢測算法(作者採用的是YOLOv3),在原本的分類和迴歸分支上增加了一個表觀特徵提取的分支。

文中作者重點介紹了多任務網絡框架的訓練方式,首先分析了三種Loss:

對於triplet loss,這個在表觀模型的metric learning任務中很常見,作者採用了batch hard模式,並提出了triplet loss的上界,推導很簡單,關鍵在於多的那個1。爲了更好地跟交叉熵損失函數進行比較,作者將上界進行了平滑。那麼區別就在於g,g表示的正負樣本的權重。在交叉熵損失函數中,所有的負樣本都會參與計算,然而在triplet loss中,負樣本是採樣出來的,所以:

作者通過實驗也論證了上面的結論,所以在metric learning中作者採用了交叉熵損失函數。最後關於各個任務的損失函數的權重,作者提出了一種自適應平衡的加權方式:

其中的s是一種度量不同任務下個體損失的不確定性因子,詳細的原理可參見CVPR2018的《 Multi-task learning using uncertainty to weigh losses for scene geometry and semantics》關於方差不確定性對於多任務權重的影響分析。

速度和效果俱佳:

5.A Simple Baseline for Multi-Object Tracking
作者團隊:華科&微軟亞研院
備註:MOT15~20(private):59.0、68.7、67.5、58.7 MOTA 速度30fps
代碼鏈接:https://github.com/ifzhang/FairMOT

近期又開源了一篇MOT的新SOTA,也是實時的,也是CenterNet爲底層的(CenterTrack剛開源了)。

這篇論文的立意是兩部分,一個是類似於CenterTrack的基於CenterNet的聯合檢測和跟蹤的框架,一個是類似於JDE,但是卻又不同的,探討了檢測框架與ReID特徵任務的集成問題。

作者稱這類框架爲one-shot MOT框架,論文一開始作者討論了檢測框架和ReID任務的關係:

作者的意思是anchor-based的檢測框架中存在anchor和特徵的不對齊問題,所以這方面不如anchor-free框架。作者因爲這個問題而選擇了anchor-free算法——CenterNet,不過其用法並不是類似於CenterTrack[2]中採取的類似於D&T的孿生聯合方式,而是採用的Tracktor++的方式。

我們知道原始的anchor-free框架的大多數backbone都是採用了骨骼關鍵點中的hourglass結構:

 

談到了Re-ID網絡中典型的多尺度問題,所以就提出要將hourglass結構改成上圖中的多尺度融合的形式。最後通過兩個分支完成了檢測和Re-ID任務的集成,那麼接下來的部分就是如何訓練。

在訓練部分呢,同樣地,考慮到正負樣本不均衡問題,作者採用了focal loss的形式:

其中M(x,y)表示的是heatmap在(x,y)處存在目標的概率,而對於box size和offset則採用L1 loss:

最後對於Re-ID分支而言,作者採用了identification式的分類框架,這裏面的L就是不同的ID的one-hot表示,p就是網絡預測的分類置信度。

在實驗部分,作者先是通過實驗證明anchor-free的框架比anchor-based框架更適合reid:

 

緊接着論證了多尺度融合框架對於Re-ID的影響:

結果: 

private賽道:

資源

數據集

MOT:包含2D MOT2015、3D MOT2015、MOT16、MOT17和MOT17Det等多個子數據集,提供了ACF、DPM、Faster RCNN、SDP等多個檢測器輸入。包含不同的相機視角、相機運動、場景和時間變化以及密集場景。

KITTI:提供了汽車和行人的標註,場景較稀疏。

TUD Stadtmitte:包含3D人體姿態識別、多視角行人檢測和朝向檢測、以及行人跟蹤的標註,相機視角很低,數據集不大。

ETHZ:由手機拍攝的多人跟蹤數據集,包含三個場景。

EPFL:多攝像頭採集的行人檢測和跟蹤數據集,每隔攝像頭離地2米,實驗人員就是一個實驗室的,分爲實驗室、校園、平臺、通道、籃球場這5個場景,每個場景下都有多個攝像頭,每個攝像頭拍攝2分鐘左右。

KIT AIS:空中拍攝的,只有行人的頭

PETS:比較早期的視頻,有各式各樣的行人運動。

DukeMTMC:多攝像頭多行人跟蹤。

MOTS:多目標跟蹤與分割。

評價體系

ClearMOT

IDF1

Code: pythonmatlab

Top 算法

Tracking Objects as Points | [pdf][code] | arXiv(2019) | CenterTrack

Refinements in Motion and Appearance for Online Multi-Object Tracking| [pdf][code] |arXiv(2019) | MIFT

Multiple Object Tracking by Flowing and Fusing |[pdf] |arXiv(2019) |FFT

A Unified Object Motion and Affinity Model for Online Multi-Object Tracking |[pdf][code]|CVPR2020 |UMA

Towards Real-Time Multi-Object Tracking | [pdf][code] | arXiv(2019) | JDE(private)

A Simple Baseline for Multi-Object Tracking | 【pdf】| [code] arXiv(2020) | FairMOT(public&private)

 

綜述

Multiple Object Tracking: A Literature Review

Machine Learning Methods for Solving Assignment Problems in Multi-Target Tracking

Deep Learning in Video Multi-Object Tracking_ A Survey

Globally-Optimal Greedy Algorithms for Tracking a Variable Number of Objects

 

 

 

 

 

參考文獻:

1.https://zhuanlan.zhihu.com/p/126558285

2.https://zhuanlan.zhihu.com/p/125395219

3.https://zhuanlan.zhihu.com/p/107908399

4.https://zhuanlan.zhihu.com/p/109181757

5.https://zhuanlan.zhihu.com/p/108670114

6.https://zhuanlan.zhihu.com/p/97449724

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章