Feature Pyramid Networks for Object Detection 閱讀筆記

標籤（空格分隔）：論文筆記物體檢測

該論文主要提出了top-down的思想，對圖像進行進行多尺度物體檢測，嘗試解決尺度不變性的問題

Feature pyramids（多尺度特徵金字塔）在傳統的計算機視覺算法中進場被用到，而在深度學習中，都儘量避免使用多尺度相關的算法，因爲一旦涉及多尺度，計算量將成倍增加。

在這篇論文中，作者認爲在卷積網絡中的每一層，就對應一個尺度的特徵，然而在目前的網絡中，只是用到了最後一層尺度的特徵，於是作者提出了Feature Pyramid Network（FPN）. FPN結構在進行物體檢測時，不光用到了最後卷積層的feature map，同時也將之前層的feature map結合起來。該結構是結合了Faster RCNN。

In this paper, we exploit the inherent multi-scale, pyramidal hierarchy of deep convolutional networks to construct feature pyramids with marginal extra cost.

A top-down architecture with lateral connections is developed for building high-level semantic feature maps at all scales.

作者給出了目前四種常見利用多尺度信息的方法：

（a）該方法是現將輸入圖像進行resize後喂入算法，進行分類和迴歸，早期的深度學習算法基本上都是這樣做的；
（b）這是目前最常見的，將圖像送入網絡，去最後一層的feature map進行分類迴歸；
（c）這是利用每一層的feature map進行分類迴歸最後，進行融合，這種形式代表性的是SSD，但是SSD中，是在基礎網絡中添加了幾個卷積層，然後添加的幾個卷積層的feature map進行分類迴歸；
（d）這是作者提出來的。

這篇論文給出了兩個關鍵的詞語bottom-up和top-down
bottom-up：就是底層信息向高層傳播，在深度學習中，網絡結構是以層級結構進行排布的，圖像從輸入到輸出，信息是由底層到高層傳播的，所謂底層信息就是圖像的輪廓，紋理等底層的形狀信息；所謂高層信息就是圖像的類別，物體的關鍵部位等高層的語義信息，故bottom-up就是網絡的前向傳播過程。
top-down:就是高層信息往底層傳播，這裏的信息是每層的fearure map而非梯度

在這裏要解釋爲什麼會存在top-down這樣的操作？

因爲圖像需要檢測比較小的物體，直接說就是細粒度的問題，這篇論文（Beyond Skip Connections: Top-Down Modulation for Object Detection）給了個說法，它是這樣解釋的：高層信息往往語義層面的，是粗糙的，對物體的性狀描述是不細膩的；而底層信息是對圖像的形狀描述是精緻的，於是在進行微小物體檢測時，最好的方法，是將高層的語義信息和底層的形狀信息結合起來。

再來說說，作者是怎麼個結合的。。

（1）左邊箭頭依次朝上是bottom-up, 右邊的箭頭朝下是top-down的過程
（2）網絡傳至卷積最後一層之後，進行上採樣（caffe 中進行反捲積操作）還原層上一層的尺度，然後與上一層的feature map相加，如此下去；
（3）作者還提出爲了保證top-down過程中，feature map的channel一致，進行了1×1 的卷積操作

Github:https://github.com/unsky/FPN-caffe
網絡可視化：http://ethereon.github.io/netscope/#/editor

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Feature Pyramid Networks for Object Detection 閱讀筆記

Feature Pyramid Networks for Object Detection 閱讀筆記

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺

iNeuOS工業互聯網操作系統，增加電力IEC104協議

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

FeUdal Networks for Hierarchical Reinforcement Learning 閱讀筆記

Feature Pyramid Networks for Object Detection 閱讀筆記

ROIPoolingLayer源碼解析

ResNet-BN tensorflow源碼解析

DARLA: Improving Zero-Shot Transfer in Reinforcement Learning 閱讀筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結