【論文筆記】:Deep Feature Pyramid Reconfiguration for Object Detection

&Title

在這裏插入圖片描述

&Summary

目前最好的目標檢測器大多通過特徵金字塔來學習多尺度表示從而取得更高的檢測精度。然而,當前特徵金字塔的設計在如何整合不同尺度的語義信息方面仍然不夠高效。爲此,本文在調研當前主流特徵金字塔方法的基礎上把特徵金字塔轉換爲特徵的再組合過程,創造性地提出了一種高度非線性但是計算快速的結構將底層表示和高層語義特徵進行整合。具體而言,該網絡由兩個模塊組成:全局注意力和局部再組合。這兩個模塊分佈能全局和局部地去在不同的空間和尺度上提取任務相關的特徵。重要的是,這兩個模塊具有輕量級、可嵌入和可端到端訓練的優點。在基於SSD的框架上,該模型取得裏比原始模型及其他變體方法明顯更好的檢測精度,而且沒有犧牲實時的處理速度。

論文裏採用了Squeeze-and-Excitation Networks(ILSVRC 2017 image classification winner; CVPR 2018 Oral https://github.com/hujie-frank/SENet)中的SE結構

&Problem Statement

當前特徵金字塔的設計在如何整合不同尺度的予以信息方面仍然不夠高效
(當前特徵金字塔的設計對不同層的語義信息的合並沒有效率)

&Methods

對該問題做了如下的解決。

  1. 提出了以一種高度非線性的且有效的方法,將高層語義特徵與低層的表示結合起來。
  2. 提出兩個結構:global attention和局部重建;
    在這裏插入圖片描述
    首先執行自底向上的分支,然後將不同的分辨率級聯。級聯之後稱爲X;在X中包含Xl……Xp,然後對xl=H(X)處理。然後將不同的特徵輸出,進行檢測。
    中間X的作用是:多次使用底層的特徵,之前在SSD中由於對特徵使用不充分,導致對小目標檢測充分,而且mAP也不高,所以使用X的作用就是多次使用,提升準確性。

全局注意力

在這裏插入圖片描述
在這裏插入圖片描述

global attention裏首先是squeeze,實現是 一個全局平均池化,然後是excitation階段,實現是:兩個全連接後接sigmoid 激活函數,第一個全連接後接relu函數,channel個數爲c/16。第二個全連接的channel個數爲c,然後再和X做channel-wise multiplication。caffe裏用scale來實現。

局部重建

在這裏插入圖片描述
local reconfiguration 實現是上圖的模塊。即三個卷積,分別是11,33,1*1。

上圖使用殘差連接,這個殘差連接與ResNet的殘差連接是由區別。
在這裏插入圖片描述

  • 我們的假設是語義信息在特徵層次結構之間分佈,並且剩餘學習塊可以通過優化選擇其他信息。
    ResNet中殘差學習的目的是通過增加網絡深度來獲得準確性。
  • 另一個區別是,殘差學習的輸入是特徵層次,而在ResNet中,輸入是卷積輸出的一個級別。

&Evaluation

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

&Conclusion

在ConvNet下構建特徵金字塔表達的關鍵問題是重新配置和重用特徵層次結構。 本文通過全局和局部轉換來解決這個問題。 這種表示方式使我們可以爲特定比例的目標顯式建模特徵重新配置過程。 我們進行了廣泛的實驗,以將我們的方法與其他特徵金字塔變體進行比較。 我們的研究表明,儘管深層ConvNet具有很強的代表性,但仍有空間和潛力來構建更好的金字塔以進一步解決多尺度問題。

參考

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章