论文浏览(9) A Simple Baseline for Multi-Object Tracking


0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:多目标跟踪
    • 作者单位:华科&微软亚洲研究院
    • 发表时间:2020.4

1. 要解决什么问题

  • 近些年来,检测与Re-ID都有了长足的发展。而多目标跟踪可以看成是检测与Re-ID的结合。
  • 当前主要的MOT实现方法有两种
    • two-step:检测与Re-ID用两个独立的网络实现,参数不共享。这类方法性能相对高,实时性相对差。
    • one-shot:检测与Re-ID用同一个网络实现,参数共享。这类方法性能相对差,实时性相对好。
  • one-shot 类方法导致性能下降的主要原因(本文主要贡献)
    • 基于anchors的检测方法并不适用于Re-ID。首先,同一个物体可以由不同的anchor选中,从而造成模型的歧义。其次,输入图片一般会变为原来的1/8,这对于检测来说没关系,但对于ReID来说太过于粗糙了。
    • 需要multi-layer feature aggregation,即多层特征融合。这对于Re-ID来说非常重要,因为需要综合低层特征与高层特征,从而兼顾小物品与大物品。
      • 这对于two-step的方法并不重要,主要因为two-step方法的输入一般都是尺寸差不多的物体(因为resize过了)。
    • Re-ID特征的维度(尺寸)。之前的方法,Re-ID的维度都太高了,对MOT来说可能需要维度小一点更合适,主要是训练数据少了(相比于纯Re-ID数据集)。

2. 用了什么方法

  • 主要就是为了解决上面提到的3个缺陷,使用了anchor-free的检测方法(仔细点说,就是用了CenterNet)实现了MOT。
  • FairMOT的主要结构如下:
    • 总体结构如左上方小图,原始数据 image 通过 encoder-decoder 提取特征
    • encoder-decoder:猜测就是一些backbone+DLA结构。
    • 检测:使用了centernet,思路就是通过 heatmap分支检测中心点所在位置,通过 center offset 修正中心点位置,通过 box size 获取bbox的长宽。
      • 需要注意的是,centermap其实就是对backbone最后一层feature的每个位置都检测了一个object。
    • Re-ID:好像意思是在backbone后加了一层conv,从而使得channels数量为128,这样每个物体的embeddings也就是128了。
    • image_1eboo4mnf6mo1njumvku0d10qf9.png-174.9kB
  • 检测相关的一些细节
    • 传入Re-ID的特征是经过NMS操作的。
    • centermap中,每个bbox的score,或者说confidence,就是中心点 heatmap 的取值。
  • Re-ID相关的一些细节
    • 主要功能就是关联不同帧的bbox,使用的方法就是标准的 online tracking algorithm。
    • 基本思路就是:在第一帧初始化各种tracklets,在之后的帧中通过 Re-ID features 以及 IoU 进行关联。另外,也使用了卡尔曼滤波器来预测trackelet的位置,如果差距太大那就会过滤。

3. 效果如何

  • 首先做了一系列对比实验,表明了为什么要选择 anchor-free detector,为什么 Re-ID embedding dimension 要减小,为什么在backbone中要使用DLA结构。
  • 之后,与JDE进行比较,表示当前方法全方位吊打JDE
    • image_1ebop72hvug7resvgpqb42gnm.png-58.1kB
  • 与 two-step 的 SOTA 对比,也不落下风
    • image_1ebopahhfaquumfqmvjg86q513.png-149.6kB

4. 还存在什么问题

  • 从论文本身看,并没有太大的创新点。给我的感觉是通过一系列实验发现了问题,然后通过大量的尝试得到结论,然后优化……

  • 这种偏工程+开源的,是我最喜欢的……

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章