Feature Pyramid Networks for Object Detection 閱讀筆記

Feature Pyramid Networks for Object Detection 閱讀筆記

標籤(空格分隔): 論文筆記 物體檢測


該論文主要提出了top-down的思想,對圖像進行進行多尺度物體檢測,嘗試解決尺度不變性的問題

Feature pyramids(多尺度特徵金字塔)在傳統的計算機視覺算法中進場被用到,而在深度學習中,都儘量避免使用多尺度相關的算法,因爲一旦涉及多尺度,計算量將成倍增加。

在這篇論文中,作者認爲在卷積網絡中的每一層,就對應一個尺度的特徵,然而在目前的網絡中,只是用到了最後一層尺度的特徵,於是作者提出了Feature Pyramid Network(FPN). FPN結構在進行物體檢測時,不光用到了最後卷積層的feature map,同時也將之前層的feature map結合起來。該結構是結合了Faster RCNN。

  1. In this paper, we exploit the inherent multi-scale, pyramidal hierarchy of deep convolutional networks to construct feature pyramids with marginal extra cost.
  2. A top-down architecture with lateral connections is developed for building high-level semantic feature maps at all scales.

作者給出了目前四種常見利用多尺度信息的方法:

image_1bvoua5t51ihe1i78gdt93s19qt9.png-215.8kB

(a)該方法是現將輸入圖像進行resize後喂入算法,進行分類和迴歸,早期的深度學習算法基本上都是這樣做的;
(b)這是目前最常見的,將圖像送入網絡,去最後一層的feature map進行分類迴歸;
(c)這是利用每一層的feature map進行分類迴歸最後,進行融合,這種形式代表性的是SSD,但是SSD中,是在基礎網絡中添加了幾個卷積層,然後添加的幾個卷積層的feature map進行分類迴歸;
(d)這是作者提出來的。

這篇論文給出了兩個關鍵的詞語bottom-uptop-down
bottom-up:就是底層信息向高層傳播,在深度學習中,網絡結構是以層級結構進行排布的,圖像從輸入到輸出,信息是由底層到高層傳播的,所謂底層信息就是圖像的輪廓,紋理等底層的形狀信息;所謂高層信息就是圖像的類別,物體的關鍵部位等高層的語義信息,故bottom-up就是網絡的前向傳播過程。
top-down:就是高層信息往底層傳播,這裏的信息是每層的fearure map而非梯度

在這裏要解釋爲什麼會存在top-down這樣的操作?

因爲圖像需要檢測比較小的物體,直接說就是細粒度的問題,這篇論文(Beyond Skip Connections: Top-Down Modulation for Object Detection)給了個說法,它是這樣解釋的:高層信息往往語義層面的,是粗糙的,對物體的性狀描述是不細膩的;而底層信息是對圖像的形狀描述是精緻的,於是在進行微小物體檢測時,最好的方法,是將高層的語義信息和底層的形狀信息結合起來。

再來說說,作者是怎麼個結合的。。

image_1bvovnvgc14r134r1jetk0i132um.png-60kB

(1)左邊箭頭依次朝上是bottom-up, 右邊的箭頭朝下是top-down的過程
(2)網絡傳至卷積最後一層之後,進行上採樣(caffe 中進行反捲積操作)還原層上一層的尺度,然後 與上一層的feature map相加,如此下去;
(3)作者還提出爲了保證top-down過程中,feature map的channel一致,進行了1×1 的卷積操作

Github:https://github.com/unsky/FPN-caffe
網絡可視化:http://ethereon.github.io/netscope/#/editor

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章