目標檢測 Feature Pyramid Networks for Object Detection（FPN）論文筆記

原文： Feature Pyramid Networks for Object Detection
作者： Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie
下載地址： https://arxiv.org/abs/1612.03144

1 簡介

長久以來，在不同尺度下識別物體一直是計算機視覺一大挑戰。傳統的解決方法是對一張圖像進行縮放，形成圖像金字塔，然後從每層分別提取特徵，形成對應的特徵金字塔（如Figure1(a)）。這種方法曾經在深度學習方法之前很受歡迎，但之後逐漸被CNN一系列方法替代。因爲CNN網絡已經能夠自動提取高級特徵，並且魯棒性更強（如Figure1(b)），而且金字塔結構相對而言太耗時間了。
即便如此，CNN系列的檢測網絡對於小物體還是不夠理想，所以還是可以考慮使用金字塔。SSD（Single Shot Detector）對此進行過嘗試（如Figure1(c)）。**網絡的淺層分辨率高，但特徵表示較爲低級；深層的分辨率低，但有更高級的特徵表示。**SSD從每層的特徵中進行預測，爲了避免計算量過大，前面的淺層信息沒有使用。但本文表明這些高分率的淺層信息也是很有用的。
作者根據以上提出了FPN（Feature Pyramid Networks）（如Figure1(d)）。網絡首先通過bottom-up pathway由淺到深提取特徵（就是正常的網絡結構），再通過top-down pathway和lateral connections生成在每個等級都有豐富語義的特徵金字塔。
過去有一些研究方法採用的是Figure2上半部的結構，即只在top-down pathway的最後一層做預測。而本文的方法在每一層都有預測（Figure2下半部）。

2 FPN介紹

2.1 Bottom-up pathway

bottom-up pathway就是平常見到的前向傳播網絡，從原圖開始，一層一層計算特徵。作者將一些尺度相同的層稱爲同一“stage”。下一個stage的分辨率比上一個降低了1倍。在後面的特徵金字塔中，只取每個stage的最後一層參與其構成。
由於使用的是Resnet作爲主幹，作者將其分成5個stage，每個stage最後的conv輸出標記爲{C1,C2,C3,C4,C5} 。第一層佔用的內存太多，因此只取{C2,C3,C4,C5} 四個stage構成特徵金字塔。它們對於輸入圖像的步長等於{4,8,16,32} 。

2.2 Top-down pathway and lateral connections

先從C5開始，通過最近鄰方法把特徵圖升採樣2倍；對應的需要相加的bottom-up map用1*1卷積核的網絡調整其通道數（本文中通道數d=256），這樣二者就可以逐元素相加了（過程見Figure3）。Top-down pathway就這樣一層一層向下傳遞。
迭代開始時，爲了產生 the coarsest resolution map，C5首先用一個1*1的卷積層處理。
得到每個相加的特徵圖後，作者再次用3*3的卷積處理，得到最後的特徵圖{P2,P3,P4,P5} 。

3 應用

本章中作者說明如何將上面提出的特徵金字塔用到目標檢測當中

3.1 FPN for RPN

在FPN中，作者只用了一種尺度的anchor，由於不同層的feature pyramid上對應的尺寸已經不同，所以都使用同一個尺度的anchor就足夠了。於是乎{P2,P3,P4,P5,P6} 對應的anchor面積爲{322,642,1282,2562,5122} 。另外，還有{1:2,1:1,2:1} 三種長寬比，所以anchor的種類共有15種。
anchor的標籤還是遵循以前的方法。如果某個anchor IoU大於0.7，或是某個ground-truth最大IoU，則爲正標籤。反之如果IoU小於0.3，則爲負標籤。
注意到上面多了一個P6 ，它只是單純爲了多一個更大的anchor，從P5 2倍上採樣得到。這個只在本小節有，下面的Fast R-CNN依然只到P5。
作者還提到參數共享問題，不過沒看明白，直接貼原文了：