目標檢測 Feature Pyramid Networks for Object Detection(FPN)論文筆記

目標檢測 Feature Pyramid Networks for Object Detection(FPN)論文筆記


原文: Feature Pyramid Networks for Object Detection
作者: Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie
下載地址: https://arxiv.org/abs/1612.03144

1 簡介

  • 長久以來,在不同尺度下識別物體一直是計算機視覺一大挑戰。傳統的解決方法是對一張圖像進行縮放,形成圖像金字塔,然後從每層分別提取特徵,形成對應的特徵金字塔(如Figure1(a))。這種方法曾經在深度學習方法之前很受歡迎,但之後逐漸被CNN一系列方法替代。因爲CNN網絡已經能夠自動提取高級特徵,並且魯棒性更強(如Figure1(b)),而且金字塔結構相對而言太耗時間了。
  • 即便如此,CNN系列的檢測網絡對於小物體還是不夠理想,所以還是可以考慮使用金字塔。SSD(Single Shot Detector)對此進行過嘗試(如Figure1(c))。**網絡的淺層分辨率高,但特徵表示較爲低級;深層的分辨率低,但有更高級的特徵表示。**SSD從每層的特徵中進行預測,爲了避免計算量過大,前面的淺層信息沒有使用。但本文表明這些高分率的淺層信息也是很有用的。
  • 作者根據以上提出了FPN(Feature Pyramid Networks)(如Figure1(d))。網絡首先通過bottom-up pathway由淺到深提取特徵(就是正常的網絡結構),再通過top-down pathwaylateral connections生成在每個等級都有豐富語義的特徵金字塔。
    image_1bildn4vm17fpe1h1dk4151casc9.png-216kB
  • 過去有一些研究方法採用的是Figure2上半部的結構,即只在top-down pathway的最後一層做預測。而本文的方法在每一層都有預測(Figure2下半部)。
    image_1bilfbp2s113a1ot874uvc5n2m.png-116.2kB

2 FPN介紹

2.1 Bottom-up pathway

  • bottom-up pathway就是平常見到的前向傳播網絡,從原圖開始,一層一層計算特徵。作者將一些尺度相同的層稱爲同一“stage”。下一個stage的分辨率比上一個降低了1倍。在後面的特徵金字塔中,只取每個stage的最後一層參與其構成。
  • 由於使用的是Resnet作爲主幹,作者將其分成5個stage,每個stage最後的conv輸出標記爲{C1,C2,C3,C4,C5} 。第一層佔用的內存太多,因此只取{C2,C3,C4,C5} 四個stage構成特徵金字塔。它們對於輸入圖像的步長等於{4,8,16,32}

2.2 Top-down pathway and lateral connections

  • 先從C5開始,通過最近鄰方法把特徵圖升採樣2倍;對應的需要相加的bottom-up map用1*1卷積核的網絡調整其通道數(本文中通道數d=256),這樣二者就可以逐元素相加了(過程見Figure3)。Top-down pathway就這樣一層一層向下傳遞。
  • 迭代開始時,爲了產生 the coarsest resolution map,C5首先用一個1*1的卷積層處理。
  • 得到每個相加的特徵圖後,作者再次用3*3的卷積處理,得到最後的特徵圖{P2,P3,P4,P5}
    image_1bilgi1uspq4vi21bpjn55os713.png-38.8kB

3 應用

本章中作者說明如何將上面提出的特徵金字塔用到目標檢測當中

3.1 FPN for RPN

  • 在FPN中,作者只用了一種尺度的anchor,由於不同層的feature pyramid上對應的尺寸已經不同,所以都使用同一個尺度的anchor就足夠了。於是乎{P2,P3,P4,P5,P6} 對應的anchor面積爲{322,642,1282,2562,5122} 。另外,還有{1:2,1:1,2:1} 三種長寬比,所以anchor的種類共有15種。
  • anchor的標籤還是遵循以前的方法。如果某個anchor IoU大於0.7,或是某個ground-truth最大IoU,則爲正標籤。反之如果IoU小於0.3,則爲負標籤。
  • 注意到上面多了一個P6 ,它只是單純爲了多一個更大的anchor,從P5 2倍上採樣得到。這個只在本小節有,下面的Fast R-CNN依然只到P5。
  • 作者還提到參數共享問題,不過沒看明白,直接貼原文了:

image_1biltfgpqk3qtcc1o2bi7u3mp1g.png-64.5kB

image_1biltfmrn1qn67ne17n319jp4121t.png-59.3kB

3.2 FPN for Fast R-CNN

  • 作者認爲,對於不同尺度的ROI,ROI Polling層也要用不同尺度的特徵圖輸入。具體要用哪一層,作者給出如下公式計算。其中wh 是ROI的尺寸,k0 是指當wh=2242 時使用哪一層P? 輸入。當ROI更小時,就要考慮用更精細的特徵圖,即P? 下標更小。
    image_1biltr57nsodit617r1ml9sj92a.png-8.6kB

4 實驗

  • 論文的實驗篇幅太長了,這裏就不多說明,想看詳細實驗分析建議閱讀原文 : )
發佈了32 篇原創文章 · 獲贊 46 · 訪問量 13萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章