復工了，久違了。

目標跟蹤一直是計算機視覺裏無法迴避的課題，無論是單目標跟蹤SOT還是今天要討論的多目標跟蹤MOT，是視頻理解裏的重要組成部分。其任務一般包括單目標跟蹤（SOT，Single Object Tracking），多目標跟蹤（MOT，Multi-Object Tracking），視頻目標分割（VOS，Video Object Segmentation）等。今天我們主要討論下多目標跟蹤MOT相關論文框架和代碼資源列表，單目標跟蹤，相對簡單點，本來也打算專門開一個版本介紹，沒辦法復工後有點懶了，後面再看吧，飆淚笑...

現狀

當前的多目標跟蹤算法主流是基於檢測的框架，即Detection based Tracking(DBT)，所以檢測的質量對於跟蹤的性能影響是很大的。那麼在MOT Challenge上也分別設置了兩種賽道，一種是採用官方提供的幾種公共檢測器的結果，即public賽道，一種是允許參賽者使用自己的檢測器，即private賽道。

任務介紹

數學上來看，可以定義如下：

多目標跟蹤問題最早出現在雷達信號中目標運動軌跡的跟蹤，如同時跟蹤飛過來的多架敵人的飛機和多枚導彈。這些算法後來被借鑑用於機器視覺領域的多目標跟蹤任務，隨着計算機視覺領域的深入研究，近年來研究者對多目標跟蹤算法從不同的方面進行了擴展。比如通過擴展單目標跟蹤算法來支持多目標的情況，更多的工作從整個視頻場景出發，對所有的目標軌跡做了統一的考慮。根據不同的分類標準，多目標跟蹤算法有不同的分類方法。比如按照預測校正的跟蹤和按照關聯方式的跟蹤，按照離線方式的關聯跟蹤和按照在線方式的跟蹤，按照確定性推導的跟蹤算法和按照概率統計最大化的跟蹤等。

按照軌跡形成的時間順序，多目標跟蹤可以分爲在線方式的跟蹤算法以及離線形式的跟蹤過程。如果跟蹤的順序是逐幀方式的：即爲在線方式的目標跟蹤方法。在線多目標跟蹤與人眼實時跟蹤目標過程類似，是對每個目標的狀態進行估計，然後考慮整體狀態的合理性進行約束。這個過程也可以簡化爲：獲得每幀圖像檢測結果，把檢測結果同已有的跟蹤軌跡進行關聯。如果跟蹤算法運行是在視頻已經獲取結束，所有檢測結果都已經提前獲取情況下，這種跟蹤方法爲離線形式的多目標跟蹤。離線多目標跟蹤算法把檢測結果集合作爲觀察，把軌跡看作檢測集合的一種劃分，因此跟蹤問題轉化爲子集優化的過程。

相關任務：

更多介紹參見我的這篇文章。

算法探討

1.Tracking without bells and whistles(Tracktor++)

作者：Philipp Bergmann，Tim Meinhardt，Laura Leal-Taixe 備註信息：ICCV2019，MOT15~17: 46.6, 56.2. 56.3 MOTA(public）論文鏈接：https://arxiv.org/pdf/1903.05625.pdf 代碼鏈接：https://github.com/phil-bergmann/tracking_wo_bnw

Tracktor++算法是去年出現的一類全新的聯合檢測和跟蹤的框架，這類框架與MOTDT框架最大的不同在於，檢測部分不僅僅用於前景和背景的進一步分類，還利用迴歸對目標進行了進一步修正，因此關於這類框架屬於public還是private得爭論也存在，這裏我們就不做過多的討論了。

只要熟悉兩階段目標檢測算法的應該都能理解這個算法，其核心在於利用跟蹤框和觀測框代替原有的RPN模塊，從而得到真正的觀測框，最後利用數據關聯實現跟蹤框和觀測框的匹配。流程圖如下：

有了檢測模塊的加持，自然對於檢測質量進行了增強，所以效果也得到了大幅提升：

可以看到，DPM、FRCNN和SDP三種檢測器輸入下的性能差距不大，然而DPM檢測器的性能是很差的，所以Tracktor++這類算法對於平衡檢測輸入的效果提升很大。

2.Multiple Object Tracking by Flowing and Fusing(FFT)

作者：Jimuyang Zhang, Sanping Zhou, Xin Chang, Fangbin Wan, Jinjun Wang, Yang Wu, Dong Huang 備註信息：MOT15~17: 46.3, 56.5. 56.5 MOTA(public）論文鏈接：https://arxiv.org/abs/2001.11180

這篇文章也是基於Tracktor++的模式，做了很直接的一步操作，即直接增加一個光流預測分支，將Tracktor++中的跟蹤框+觀測框變成了光流預測框+觀測框。注：在MOT17等數據集上表現SOTA！優於Tracktor、LSSTO和FAMNet等網絡

好處在於光流網絡和Faster RCNN可以聯合訓練，在訓練的時候RPN保留，不過從論文來看光流部分好像是固定權重的，其效果相對來說的確更好了：

3.Tracking Objects as Points(CenterTrack)

作者：Xingyi Zhou(CenterNet的作者), Vladlen Koltun, and Philipp Krähenbühl 備註信息：同時實現了2D/3D多目標跟蹤，包含人和車輛，MOT17：61.4(public）、67.3(private) MOTA, 22FPS!!! KITTI：89.4MOTA 論文鏈接：http://arxiv.org/abs/2004.01177 代碼鏈接：https://github.com/xingyizhou/CenterTrack

CenterTrack是CenterNet作者基於Tracktor++這類跟蹤機制，通過將Faster RCNN換成CenterNet實現的一種多目標跟蹤框架，因此跟蹤框也就變成了跟蹤中心點。

通過上圖我們可以大致分析出算法框架，除了對相鄰兩幀利用CenterNet進行檢測之外，還利用了D&T框架的策略，預測同時存在於兩幀中目標的相對位移，由此進行跟蹤預測。對於提供的觀測框，作者通過將這些觀測框的中心點映射到一張單通道的heatmap上，然後利用高斯模糊的方式將點的附近區域也考慮進去。

因此CenterTrack相對於CenterNet的不同之處在於，輸入維度增加了（兩幅3維圖像和一張觀測位置heatmap），輸出變成了兩張圖像的目標中心位置、大小和相對偏移。

對於測試環節的數據關聯部分，作者直接通過中心點的距離來判斷是否匹配，是一種貪婪的方式，並非匈牙利算法那種全局的數據關聯優化。在訓練過程中，作者並非只用相鄰幀進行訓練，允許跨3幀。

CenterTrack在MOT、KITTI和nuScenes等數據集上的2D/3D多行人/車輛跟蹤任務上均取得了SOTA的成績。

4.Towards Real-Time Multi-Object Tracking(JDE)

作者：Zhongdao Wang，Liang Zheng，Yixuan Liu，Shengjin Wang 備註信息：MOT16 74.8 MOTA(private), 22FPS!! 論文鏈接：https://arxiv.org/pdf/1909.12605v1.pdf 代碼鏈接：https://github.com/Zhongdao/Towards-Realtime-MOT

JDE這篇跟這次的主題不是很相符，但是考慮到這也是近期比較熱門的實時多目標跟蹤算法，我們也一起講。它的框架出發點是爲了增加特徵的複用性，基於檢測算法（作者採用的是YOLOv3），在原本的分類和迴歸分支上增加了一個表觀特徵提取的分支。

文中作者重點介紹了多任務網絡框架的訓練方式，首先分析了三種Loss：

對於triplet loss，這個在表觀模型的metric learning任務中很常見，作者採用了batch hard模式，並提出了triplet loss的上界，推導很簡單，關鍵在於多的那個1。爲了更好地跟交叉熵損失函數進行比較，作者將上界進行了平滑。那麼區別就在於g，g表示的正負樣本的權重。在交叉熵損失函數中，所有的負樣本都會參與計算，然而在triplet loss中，負樣本是採樣出來的，所以：

作者通過實驗也論證了上面的結論，所以在metric learning中作者採用了交叉熵損失函數。最後關於各個任務的損失函數的權重，作者提出了一種自適應平衡的加權方式：

其中的s是一種度量不同任務下個體損失的不確定性因子，詳細的原理可參見CVPR2018的《 Multi-task learning using uncertainty to weigh losses for scene geometry and semantics》關於方差不確定性對於多任務權重的影響分析。

速度和效果俱佳：

5.A Simple Baseline for Multi-Object Tracking
作者團隊：華科&微軟亞研院
備註：MOT15~20(private)：59.0、68.7、67.5、58.7 MOTA 速度30fps
代碼鏈接：https://github.com/ifzhang/FairMOT

近期又開源了一篇MOT的新SOTA，也是實時的，也是CenterNet爲底層的（CenterTrack剛開源了）。

這篇論文的立意是兩部分，一個是類似於CenterTrack的基於CenterNet的聯合檢測和跟蹤的框架，一個是類似於JDE，但是卻又不同的，探討了檢測框架與ReID特徵任務的集成問題。

作者稱這類框架爲one-shot MOT框架，論文一開始作者討論了檢測框架和ReID任務的關係：

作者的意思是anchor-based的檢測框架中存在anchor和特徵的不對齊問題，所以這方面不如anchor-free框架。作者因爲這個問題而選擇了anchor-free算法——CenterNet，不過其用法並不是類似於CenterTrack[2]中採取的類似於D&T的孿生聯合方式，而是採用的Tracktor++的方式。