【論文筆記】【目標檢測】fpn詳解

fpn是在卷積神經網絡中圖像金字塔的應用。圖像金字塔在多尺度識別中有重要的作用,尤其是小目標檢測。

這裏寫圖片描述

論文中給了這麼一張圖來展示4種利用特徵的形式。

(a)圖像金字塔。這個是直接把圖片resize成不同的尺度,使用不同的尺度對應生成不同的特徵。缺點是時間成本很大,如果在測試的時候使用四級的圖像金字塔,那麼測試時間*4.

(b)只用最後一層特徵。在fpn之前的算法,faster rcnn和spp net都是隻用了最後一層特徵。這個最大的問題應該是小目標難以識別,比如image中小目標尺寸16*16,下采樣16倍就變成了1*1,四捨五入相當於沒了。

(c)使用每層特徵圖進行預測。SSD是這麼做的,從網絡不同層抽取不同尺度的特徵做預測。fpn認爲SSD算法用到的底層不夠底層。

(d)fpn採用了這種方法,頂層特徵上採樣後和底層特徵融合,每層獨立預測。

fpn的思路:

fpn每層做特徵融合的特徵圖有兩個,首先是前向傳播,然後取了每個特徵圖做上採樣(最近鄰插值),對應前向傳播的特徵圖做融合。融合的方式是:通過1x1卷積調整通道數,然後直接add。之後進行3x3卷積操作,目的是消除上採樣的混疊效應。

FPN在rpn中的應用

rpn在faster rcnn中用於生成proposals,原版rpn生成在每個image的最後一張特徵圖上生成3x3個proposal。但實際上,小目標下采樣到最後一個特徵圖,已經很小了。fpn可以在之前的多個特徵圖上獲得proposal,具體做法是:在每個feature map上獲得1:1、1:2、2:1長寬比的框,尺寸是{32^2、64^2、128^2、256^2、512^2}分別對應{P2、P3、P4、P5、P6}這五個特徵層上。P6是專門爲了RPN網絡而設計的,用來處理512大小的候選框。它由P5經過下采樣得到。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章