深度學習_目標檢測_FPN論文詳解

FPN的創新點

  1. 多層特徵
  2. 特徵融合

解決了目標檢測中的多尺度問題,通過簡單的網絡連接改變,在基本不增加原有模型計算量的情況下,大幅度提升小物體(small object)的檢測性能。

在物體檢測裏面,有限計算量情況下,網絡的深度(對應到感受野)與 stride 通常是一對矛盾的東西,常用的網絡結構對應的深度stride 一般會比較大(如 32),而圖像中的小物體甚至會小於 stride 的大小,造成的結果就是小物體的檢測性能急劇下降。傳統解決這個問題的思路包括:

  1. 圖像金字塔(image pyramid),即多尺度訓練和測試。但該方法計算量大,耗時較久。
  2. 特徵分層,即每層分別預測對應的scale分辨率的檢測結果,如SSD算法。該方法強行讓不同層學習同樣的語義信息,但實際上不同深度對應於不同層次的語義特徵,淺層網絡分辨率高,學到更多是細節特徵,深層網絡分辨率低,學到更多是語義特徵。

FPN的核心思想

FPN網絡直接在Faster R-CNN單網絡上做修改,每個分辨率的feature map引入後一分辨率縮放兩倍的feature map做element-wise相加操作。通過這樣的連接,每一層預測所用的feature map都融合了不同分辨率、不同語義強度的特徵,融合的不同分辨率的feature map分別做對應分辨率大小的物體檢測。這樣保證了每一層都有合適的分辨率以及強語義(rich semantic)特徵。同時,由於此方法只是在原網絡基礎上加上了額外的跨層連接,在實際應用中幾乎不增加額外的時間和計算量。作者接下來實驗了將 FPN 應用在 Faster R-CNN 上的性能,在 COCO 上達到了 state-of-the-art 的單模型精度。在RPN上,FPN增加了8.0個點的平均召回率(average recall,AR);在後面目標檢測上,對於COCO數據集,FPN增加了2.3個點的平均精確率(average precision,AP),對於VOC數據集,FPN增加了3.8個點的AP。

FPN的主要模塊

  1. Bottom-up pathway(自底向上線路)
  2. Lareral connections(橫向鏈路)
  3. Top-down path(自頂向下線路)

在這裏插入圖片描述

自底向上線路

FPN是基於Faster R-CNN進行改進,其backbone是ResNet-101,FPN主要應用在Faster R-CNN中的RPN(用於bouding box proposal generation)和Fast R-CNN(用於object detection)兩個模塊中。

其中 RPN 和 Fast RCNN 分別關注的是召回率(recall)和精確率(precision),在這裏對比的指標分別爲 Average Recall(AR) 和 Average Precision(AP)。

自底向上線路是卷積網絡的前向傳播過程。在前向傳播過程中,feature map的大小可以在某些層發生改變。一些尺度(scale)因子爲2,所以後一層feature map的大小是前一層feature map大小的二分之一,根據此關係進而構成了 feature pyramid(hierarchy)。

然而還有很多層輸出的feature map是一樣的大小(即不進行縮放的卷積),作者將這些層歸爲同一 stage。對於feature pyramid,作者爲每個stage定義一個pyramid level。

作者將每個stage的最後一層的輸出作爲feature map,然後不同stage進行同一操作,便構成了feature pyramid。

具體來說,對於ResNets-101,作者使用了每個stage的最後一個殘差結構的特徵激活輸出。將這些殘差模塊輸出表示爲{C2, C3, C4, C5},對應於conv2,conv3,conv4和conv5的輸出,並且注意它們相對於輸入圖像具有{4, 8, 16, 32}像素的步 長。考慮到內存佔用,沒有將conv1包含在金字塔中。

在這裏插入圖片描述

橫向鏈路和自頂向下線路

自頂向下線路是上採樣的過程,而橫向鏈路是將自頂向下線路的結果和自底向上線路的結構進行融合。

上採樣的feature map與相同大小的下采樣的feature map進行逐像素相加融合(element-wise addition),其中自底向上的feature先要經過1×11\times 1卷積層,目的是爲了減少通道維度。(減少通道維度是爲了將bottom-up feature map的通道數量與top-down feature map的通道數量保持一致,又因爲兩 者feature map大小一致,所以可以進行對應位置像素的疊加(element-wise addition)。)

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章