【论文笔记】：Stitcher: Feedback-driven Data Provider for Object Detection

原創

Activewaste

2020-05-11 06:15

&Title

&Summary

目标检测通常根据尺度变化质量，其中对小目标的性能最不令人满意。

本文研究了这种现象，发现：在大多数训练迭代中，小目标几乎不占总损失的一部分，从而导致不平衡优化的性能下降。

受此启发，本文提出了Stitcher，一个反馈驱动的数据提供商，旨在以平衡的方式训练目标检测器。 在Stitcher中，图像被调整成更小的组件，然后Stitch成与常规图像相同的大小。Stitch图像包含不可避免的较小对象，这将有利于作者的核心思想，利用损失统计作为反馈，以指导下一次迭代更新。

在不同的检测、骨干网、训练周期、数据集上进行了实验，甚至在实例分割上也进行了实验。Stitcher在所有设置中都稳定地提高了性能，特别是对于小对象，在训练和测试阶段几乎没有额外的计算。

&Research Objective

针对小目标的检测性能低，利用小目标训练损失比例反馈驱动，旨在以平衡的方式训练目标检测器来提高检测性能。

&Problem Statement

Multi-scale training

在COCO数据集中，研究detection的training方式，当时尝试了Multi-scale training的各种settings、SNIP[1]/SNIPER[2]、CSN[3]等。发现Multi-scale training对模型训练是真的很有帮助，然而，普通的Multi-scale training太低效了，而SNIPER是真的复杂，需要处理好label assignments, valid range tuning, positive/negative chip selection，费了作者很大的力气才把它从MXNet源码迁移到自己的框架上。使得作者不得不去研究一种更简洁实用的multi-scale training 方法。

图像层面分析

小物体在自然图像中非常常见，而它们在不同图像中的分布是不可预测的。如表1所示，COCO训练集中的对象中有41.4％是小对象，比其他两个量表中的对象要多得多。但是，只有52.3％的图像包含小物体。相比之下，中型和大型物体的比例分别为70.7％和83.0％。换句话说，在某些图像中，大多数对象很小，相反，近一半的图像中不包含小对象。这种严重的失衡妨碍了培训过程。

在常规图像中，对象可能会因摄影问题而模糊，例如失焦或运动模糊。如果将常规图像调整为较小的尺寸，则内部的中型或大型对象也将变为较小的对象，但是其轮廓或细节仍然比原始的小型对象更清晰。 （缩放图片的灵感来源）

训练层面分析

小物体在图像上的分布不均匀，因此使训练遭受进一步的失衡问题。即使某些图像中包含小物体，它们仍然有机会在训练过程中被忽略。图1说明，在超过50％的迭代中，小对象占总数的不到10％。训练损失主要是大中型物体。因此，用于小物体的监控信号不足，严重损害了小物体的准确性甚至整体性能。

在大多数训练迭代中，小目标几乎不占总损失的一部分，从而导致不平衡优化的性能下降。

&Method(s)

在已经有了前面multi-scale training和SNIPER的实验结果后，作者想到可以把图像缩小，并拼接在一起（逆SNIPER而行，SNIPER是裁剪，Stitcher是拼接）。

如下图所示，作者把batch内每4张图都缩小到同样大小，之后拼成一张与正常普通同样大小的图作为训练。通过这样的方式，把大物体和中物体缩小成中物体和小物体，来均衡不同Scale物体在训练过程中的分布。

（这里与YOLOv4-Mosaic类似，但不同的是作者没想到拼接的时候可以调整4张图为不同大小。）

然后用loss 作为反馈信号，来指导拼接图的使用。作者采用了一种“缺啥补啥”的简单思路：如果上一个iteration中，小物体产生的loss不足（比例小于一个阈值），则下一个iteration就用拼接图；否则就用正常图片训练。

&Evaluation

在Faster R-CNN、RetinaNet的1x / 2x上都进行了实验，有2个点左右的AP提升，且涨点主要来自于AP small。这符合作者最初的Motivation和方法设计。
在更大的backbone / 更高的baseline (ResNext + Deformable) 、其他数据集 (PASCAL VOC)、Instance Segmentation (Mask R-CNN) 等settings上都做了实验验证，都有不同程度的效果提升。
与多尺度训练进行比较，由下表可以得出，Stitcher相对于多尺度训练的优势很大程度上是从小尺度获得的。它们在检测大型物体方面具有大致相同的能力。这样的对比证实了我们朝着设计目标的成就，主要目的是通过图像拼接来检测小物体。而且在相同的培训期间，多尺度培训比Stitcher花费更多的时间。
与SNIP和SNIPER的比较。在带有ResNet-50 / 101的Faster R-CNN上比较了带有SNIP的Stitcher和SNIPER3。 Stitcher的性能稍好。SNIPER和Stitcher都可以视为多尺度训练。但是，存在一些明显的差异：
- 首先，Stitcher的实现更简单。 SNIPER需要标签分配，有效范围调整和正负芯片选择。
- 其次，Stitcher是反馈驱动的，优化过程将更多的精力放在缺点上。
Stitcher对大型骨干网的改进。实验以1倍训练周期在Faster R-CNN上进行。在较高的基准上，Stitcher仍可以将性能提高1.0％至1.5％AP，这证明了Stitcher对复杂情况的鲁棒性。
表7显示了对具有ResNet-50和FPN主干的Faster R-CNN的较长训练时间的评估，对于6倍训练，基线的性能会因过度拟合而降低，而Stitcher仍保持有希望的准确性。拼接图像的组成的多样性，这会丰富数据模式并防止过度拟合。

&Thinks

针对小目标数据的问题，通过loss回归来自适应调整大小目标样本的输入。大于一定阈值。输入正常图片。小于的话，则使用拼接图片。
整体思想是非常简单，就是利用loss做回馈信号，来调整。这一类的操作其实还蛮多的，比如FSAF用anchorfree分支的loss来选择特征层，呃，还有……（忘了）。了解一下代码怎么实现的，可以试着利用这种思路去自适应其他的module。
自适应方面也有很多，比如自适应NMS，自适应特征选择ASFF、自适应采样ATSS等

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【论文笔记】：Stitcher: Feedback-driven Data Provider for Object Detection

&Title

&Summary

&Research Objective

&Problem Statement

&Method(s)

&Evaluation

&Thinks

C++筆記：虛函數實現原理

C++筆記：關鍵字作用

C++筆記：new 和 malloc的區別

ImportError ：cannot import name xxxxxx 的三種類型的解決方法

解決teamviewer檢測到超時限制的問題：修改mac地址或自動更換ID方法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結