论文浏览(9) A Simple Baseline for Multi-Object Tracking

原創

2020-07-07 14:47

0. 前言

近些年来，检测与Re-ID都有了长足的发展。而多目标跟踪可以看成是检测与Re-ID的结合。
当前主要的MOT实现方法有两种
- two-step：检测与Re-ID用两个独立的网络实现，参数不共享。这类方法性能相对高，实时性相对差。
- one-shot：检测与Re-ID用同一个网络实现，参数共享。这类方法性能相对差，实时性相对好。
one-shot 类方法导致性能下降的主要原因（本文主要贡献）
- 基于anchors的检测方法并不适用于Re-ID。首先，同一个物体可以由不同的anchor选中，从而造成模型的歧义。其次，输入图片一般会变为原来的1/8，这对于检测来说没关系，但对于ReID来说太过于粗糙了。
- 需要multi-layer feature aggregation，即多层特征融合。这对于Re-ID来说非常重要，因为需要综合低层特征与高层特征，从而兼顾小物品与大物品。
  - 这对于two-step的方法并不重要，主要因为two-step方法的输入一般都是尺寸差不多的物体（因为resize过了）。
- Re-ID特征的维度（尺寸）。之前的方法，Re-ID的维度都太高了，对MOT来说可能需要维度小一点更合适，主要是训练数据少了（相比于纯Re-ID数据集）。

主要就是为了解决上面提到的3个缺陷，使用了anchor-free的检测方法（仔细点说，就是用了CenterNet）实现了MOT。
FairMOT的主要结构如下：
- 总体结构如左上方小图，原始数据 image 通过 encoder-decoder 提取特征
- encoder-decoder：猜测就是一些backbone+DLA结构。
- 检测：使用了centernet，思路就是通过 heatmap分支检测中心点所在位置，通过 center offset 修正中心点位置，通过 box size 获取bbox的长宽。
  - 需要注意的是，centermap其实就是对backbone最后一层feature的每个位置都检测了一个object。
- Re-ID：好像意思是在backbone后加了一层conv，从而使得channels数量为128，这样每个物体的embeddings也就是128了。
检测相关的一些细节
- 传入Re-ID的特征是经过NMS操作的。
- centermap中，每个bbox的score，或者说confidence，就是中心点 heatmap 的取值。
Re-ID相关的一些细节
- 主要功能就是关联不同帧的bbox，使用的方法就是标准的 online tracking algorithm。
- 基本思路就是：在第一帧初始化各种tracklets，在之后的帧中通过 Re-ID features 以及 IoU 进行关联。另外，也使用了卡尔曼滤波器来预测trackelet的位置，如果差距太大那就会过滤。

首先做了一系列对比实验，表明了为什么要选择 anchor-free detector，为什么 Re-ID embedding dimension 要减小，为什么在backbone中要使用DLA结构。
之后，与JDE进行比较，表示当前方法全方位吊打JDE
与 two-step 的 SOTA 对比，也不落下风

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.