論文閱讀:(AAAI 2019)M2det: A single-shot object detector based on multi-level feature pyramid network

大的背景

  • 特徵金字塔網絡似乎已經成爲了相關目標檢測比賽的一些標配,而且不論是one-stage(DSSD, RetinaNet),還是two-stages(Mask RCNN)
  • 但是這個也並不是無往不利的利器,它也有着它的缺陷:
    • 金字塔中提取的feature map往往沒有足夠的特徵表達能力,因爲這些feature map只是簡單的根據主幹網絡的結構構成,但是這些主幹網絡起初是爲目標識別而設計的。
    • 用來檢測物體的每一個feature map,往往主要是single-level layers構成,這也導致了只能包含single-level信息。

論文中主要工作做了什麼?

  • 基於SSD,設計了Multi-Level Feature Pyramid Network(MLFPN),具體來講,提出了3個模塊層
    • FFM(Feature Fusion Module)(FFMv1, FFMv2)
    • TUMs(Thinned U-shape Modules)
    • SFAM(Scale-wise Feature Aggregation Module)
  • 這篇論文有個特點,就是寫的特別清楚,基本上看它的方法圖,就能看懂做了什麼,通俗易懂
    • 整體框架圖:
      在這裏插入圖片描述
    • FFMv1和FFMv2
      在這裏插入圖片描述
    • TUMs:
      在這裏插入圖片描述
    • SFAM:
      在這裏插入圖片描述
  • 直觀感受一下,和其他金字塔的區別:
    在這裏插入圖片描述

相比於FPN,有什麼優點呢?

從最後作爲預測特徵前的feature map而言,相比於FPN, MLFPN中的decoder layer比backbone更深,這樣可以解決前期提取特徵表達能力不足,也可以解決single-level的問題。

相關的資源:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章