ResNeSt 登顶COCO数据集(目标检测,实例分割,全景分割)

点击上方“视学算法”,选择加"星标"或“置顶”

重磅干货,第一时间送达

编辑:Cver

本文作者:张航

https://zhuanlan.zhihu.com/p/140236141

本文已由原作者授权,不得擅自二次转载

上期回顾:在上一篇关于语义分割在 ADE20K 数据集文章发布之后,我们又测试了 Cityscapes 和 Pascal Context,均达到了 SoTA 水平。

首先感谢小伙伴们 (Chongruo @吴冲若, Jerry@张钟越, Yi @朱毅) 的努力工作 ,还有沐神 @李沐的大力支持。

我们最近使用 ResNeSt 对各项下游应用进行测试,发现仅需使用经典算法作为基础,使用 ResNeSt 作为主干网络,就可以在各项应用中轻松获得 SoTA 水平,下面是几个相关的应用:

因为最近小伙伴们都比较忙,我们就不详细赘述了,这里主要是展示一下我们取得的结果。希望给准备打 COCO+LVIS比赛的小伙伴有所帮助,代码和模型都已经开源 

主仓库链接:

https://github.com/zhanghang1989/ResNeSt

Detectron模型链接:

https://github.com/zhanghang1989/detectron2-ResNeSt

文章末尾有一些彩蛋,有兴趣可以看一下。

我们使用了 Cascade R-CNN + ResNeSt200DCN 在 MS-COCO 目标检测 test-dev 数据集上的结果如下:

这个表现追平了之前的 CBNet,与CBNet使用 3 个 backbone 不同,我们的模型只使用了单一的 ResNeSt-200 + DCN 的 backbone,所以有更好的推理速度。

MS-COCO 实例分割的 test-dev 数据集上的结果如下:

我们超过了 SpineNet 和 CBNet。在全景分割上,我们大幅超越前人工作:

最后补充一下上一篇没有提到的语义分割上的结果,在Cityscapes验证集上

Pascal Context 验证集上 (我们没有找到 test server):

写在后面:

之前有公众号高调宣传我们的 ResNeSt paper,有朋友在评论区指责我们给 reviewer 压力,所以我们选择在审稿意见出来之后再继续宣传。而且我们很惊喜地收到一个 strong reject,关心这个审稿意见怎么写的朋友,可以去那个指责我们给 reviewer 压力的评论,翻译成英文是一模一样的。

关于这篇文章,当时投稿的时候,在 ImageNet 确实 Ablation Study 做得有许多不到位的地方,但是之前的文章也没有把所有前人提出的网络都按照相同 setting 训练一遍,而且这位 reviewer 还问为什么不比一下 SKNet + ResNet50D 这个不曾出现在前人工作中的网络。我觉得一定是出于对学术的严谨性给出的 strong reject,我非常感谢大家对我们工作的严格要求,在改投之前一定会把补充实验补充好(其实最近已经在做了)。

我之前也说过,这篇文章不是要解决分类问题,因为我认为分类问题是已经解决了的问题。最近领域内的基础网络研究和下游应用脱节。EfficientNet 很成功,但是它与下游应用已有的算法不兼容。我们训练网络中使用了一些 EfficientNet 的训练方法,比如 Auto Augment,但是请问为什么 ResNet 系列就不能用训练技巧。而且 Ablation Study 里面已经展示了,我们并没有使用精度最好的 setting 来做backbone,而是选择一个 latency 较小的,主要就是为了下游应用考虑。

我们不重复造轮子,希望做的网络能够和前人工作最好地兼容起来。这个网络替换原有 ResNet,可以提高3%左右,甚至在不使用任何技巧的情况下,直接在各个下游应用的主流数据集中取得 SoTA 的结果。希望这个网络能够对领域内的工作有所启发,其实我们并没有真正在意多一篇顶会文章。

请给我一个在看

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章