大的背景
- 特徵金字塔網絡似乎已經成爲了相關目標檢測比賽的一些標配,而且不論是one-stage(DSSD, RetinaNet),還是two-stages(Mask RCNN)
- 鋁型材表面瑕疵識別-Are you OK?隊-1-解決方案 就用到了Faster-RCNN+FPN
- 但是這個也並不是無往不利的利器,它也有着它的缺陷:
- 金字塔中提取的feature map往往沒有足夠的特徵表達能力,因爲這些feature map只是簡單的根據主幹網絡的結構構成,但是這些主幹網絡起初是爲目標識別而設計的。
- 用來檢測物體的每一個feature map,往往主要是single-level layers構成,這也導致了只能包含single-level信息。
論文中主要工作做了什麼?
- 基於SSD,設計了Multi-Level Feature Pyramid Network(MLFPN),具體來講,提出了3個模塊層
- FFM(Feature Fusion Module)(FFMv1, FFMv2)
- TUMs(Thinned U-shape Modules)
- SFAM(Scale-wise Feature Aggregation Module)
- 這篇論文有個特點,就是寫的特別清楚,基本上看它的方法圖,就能看懂做了什麼,通俗易懂
- 整體框架圖:
- FFMv1和FFMv2
- TUMs:
- SFAM:
- 整體框架圖:
- 直觀感受一下,和其他金字塔的區別:
相比於FPN,有什麼優點呢?
從最後作爲預測特徵前的feature map而言,相比於FPN, MLFPN中的decoder layer比backbone更深,這樣可以解決前期提取特徵表達能力不足,也可以解決single-level的問題。
相關的資源:
- 性能超FPN!北大、阿里等提多層特徵金字塔網絡 (寫的還可以,有些標題黨,不過原文也比較通俗易懂)
- 原文
- GitHub鏈接(Pytorch0.4)