论文阅读:(AAAI 2019)M2det: A single-shot object detector based on multi-level feature pyramid network

大的背景

  • 特征金字塔网络似乎已经成为了相关目标检测比赛的一些标配,而且不论是one-stage(DSSD, RetinaNet),还是two-stages(Mask RCNN)
  • 但是这个也并不是无往不利的利器,它也有着它的缺陷:
    • 金字塔中提取的feature map往往没有足够的特征表达能力,因为这些feature map只是简单的根据主干网络的结构构成,但是这些主干网络起初是为目标识别而设计的。
    • 用来检测物体的每一个feature map,往往主要是single-level layers构成,这也导致了只能包含single-level信息。

论文中主要工作做了什么?

  • 基于SSD,设计了Multi-Level Feature Pyramid Network(MLFPN),具体来讲,提出了3个模块层
    • FFM(Feature Fusion Module)(FFMv1, FFMv2)
    • TUMs(Thinned U-shape Modules)
    • SFAM(Scale-wise Feature Aggregation Module)
  • 这篇论文有个特点,就是写的特别清楚,基本上看它的方法图,就能看懂做了什么,通俗易懂
    • 整体框架图:
      在这里插入图片描述
    • FFMv1和FFMv2
      在这里插入图片描述
    • TUMs:
      在这里插入图片描述
    • SFAM:
      在这里插入图片描述
  • 直观感受一下,和其他金字塔的区别:
    在这里插入图片描述

相比于FPN,有什么优点呢?

从最后作为预测特征前的feature map而言,相比于FPN, MLFPN中的decoder layer比backbone更深,这样可以解决前期提取特征表达能力不足,也可以解决single-level的问题。

相关的资源:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章