【論文筆記】:Residual Bi-Fusion Feature Pyramid Network for Accurate Single-shot Object Detection

&Title

在這裏插入圖片描述

&Summary

原始FP缺乏自下而上的途徑來抵消來自較低層特徵圖的丟失信息。它在大型目標檢測中表現良好,但在小型目標檢測中表現較差。

本文提出了一種新的結構“殘差金字塔”。雙向融合深度特徵和淺層特徵,以實現對小型和大型目標的更有效,更可靠的檢測。

  • 由於具有“residual”性質,因此與其他雙向方法相比,可以輕鬆地對其進行訓練並將其集成到不同的主幹(甚至更深或更輕)上。
  • residual FP的一個重要特性是:即使採用更多層,仍可以發現精度的提高。

在VOC和MS COCO數據集上進行的大量實驗表明,該方法獲得了SoTA結果,可實現高精度,高效的目標檢測。

關鍵詞:殘差、雙向

&Research Objective

  • 爲了在深層次提高小目標檢測精度和效率
  • 爲了保持大尺寸和小尺寸目標檢測結果的一致性

&Problem Statement

FP是一種自上而下的聚合,可收集語義上強大的功能,以改善兩階段和一階段檢測器中的尺度不變性。

  • 但是,由於池的移位效應,該自上而下的路徑無法保留準確的對象位置。因此,當使用更多層時,FP提高檢測精度的優勢將消失。

FPN是一種自上而下的方法,可從最後一層引入語義上強大的功能,以從背景中區分對象(請參見圖1(a))。但是,由於池化和量化的影響,它無法保留其準確位置。
--------------------------------------------------------------------------------------------------------
池化會導致特徵的移位,使得目標位置產生偏移,錨點選取的特徵就會產生偏差。

問題就在於如何更好的保留準確的對象位置????

其實,文章從這個點切入,引出自己的特徵融合模塊,個人感覺不太恰當。在文章的第三部分,解決這個問題只佔了很少的一個篇幅,其他模塊也不是解決這個問題的。而這邊好像是隻列出這個問題???但實際的解決方法只是其中的一個而已,這樣問題和解決辦法不是對應的。

&Method(s)

在這裏插入圖片描述
圖a 爲常用方法FPN,然而,由於池化和量化(pooling and quantization)的影響,它不能保持精確的位置。要解決這個問題,最好不僅從當前層預測目標啊,而且從淺層預測目標,以防止小目標丟失。

圖b 我們提出了一個核心(連接和重組)模塊,通過僅重用主幹網的三個層(前一層、當前層和下一層)的特徵映射來傳遞語義和定位信息。“重用”機制可以節省內存和帶寬,適合嵌入式應用。核心模塊的輸出可以進一步“淨化”以生成更多的語義特徵

在這裏插入圖片描述
圖c 當“淨化”模塊被注入到特徵金字塔中時,一個新的雙融合特徵金字塔被構建用於高質量的目標檢測.

圖d 顯示了這個剩餘特徵金字塔的最終架構。受ResNet-101概念的啓發,如果實現“殘差”概念,這個金字塔可以容易、高效和有效地訓練。

CORE Module for Feature Fusion

在這裏插入圖片描述

  • 這項工作的新穎之處在於,可以遞歸執行CORE模塊;
  • 該模塊不僅可以將高級語義特徵從較深的層連接到較淺的層(自頂向下的方向),而且還可以將空間上較豐富的特徵從較淺的層重新組織爲較深的層(自下而上的方向)。
  • 爲了避免使用過多的抖動操作(即卷積)和計算上昂貴的操作(即池化和加法)來保留儘可能多的預測特徵,CORE模塊(請參見圖2)採用串聯來融合更深層的特徵到當前層,並進行重組操作以將較淺層的特徵融合到當前層。

與現有技術中使用的連接方法不同:

提出的CORE塊遞歸連接不僅相鄰層而且更深層的上下文特徵。換句話說,CORE塊融合了主幹網的4個相鄰尺度(淺,深,深和更深)中的各種特徵,以豐富這些特徵以進行更好的檢測。兩種操作都非常節省時間,並且可以保留所有上下文信息。在這種情況下,準確性和效率都會提高。

Purification

在這裏插入圖片描述
圖3說明了此純化模塊的流程圖,可以進一步淨化CORE模塊的輸出,以從4個相鄰尺度的融合特徵中形成更多上下文和語義特徵。

該模塊由特徵提取的兩個連續部分組成,其中每個部分包括一個瓶頸層和一個3×3卷積層。 前者用於將通道數從D減少到D / 2。 後者用於提取上下文特徵。 第二個瓶頸層的輸出被饋送到另一個CORE模塊,以在較淺的範圍內細化定位信息。

疑問:不是有三個瓶頸層嗎????

BiFusion Feature Pyramid

爲了從下至上的路徑傳播語義和位置信息,當前的雙向方法採用內存和帶寬消耗的方式從淺層創建新的特徵圖以進行特徵融合,從而更準確地預測候選目標。

與這些方法不同,這項工作通過遞歸執行CORE和Purification模塊,僅重用了主幹網的三個層(上一個,當前和下一個)中的特徵圖。圖1(c)顯示了構建Bifusion特徵金字塔的遞歸架構。第(i-1)個CORE和Purification模塊的輸出是第i個CORE模塊的輸入,用於生成更多語義上下文。 “重用”機制使其在存儲和帶寬方面效率很高,並且適用於嵌入式應用程序。從深層和淺層雙向循環地循環語義和位置信息也顯着提高了小目標檢測的準確性。遞歸性質還帶來了定位信息以細化大對象的位置。

遞歸???這裏的遞歸操作不是很明白具體是什麼操作。

Residual Feature Pyramid

在這裏插入圖片描述
使用RECORE模塊,本文構造了一個新的“殘差”特徵金字塔,以從深層和淺層雙向循環語義和本地化信息 。 殘差性質使新特徵金字塔易於訓練並將其集成到不同的主幹中,從而顯着提高了小物體檢測的結果。

Improvement on Large and Medium Object Detection

在這裏插入圖片描述
YOLO V3提高了小目標檢測的準確性,但導致了大目標 物體檢測的準確性。 爲避免這種意外影響,LPIRC 2019的獲勝者團隊[28]改進了大中型目標的結果,但忽略了小目標上的結果,以提高整體精度。 爲了在小型和大型目標檢測上實現高精度,殘留金字塔結構中各層之間的特徵將使用自下而上的途徑進一步融合(如圖6所示)。

&Evaluation

精度對比
在這裏插入圖片描述

在這裏插入圖片描述
可視化結果
在這裏插入圖片描述

&Conclusions

本文提出了一種新的結構“殘差金字塔”。 雙向融合深度特徵和淺層特徵,以實現對小尺寸和大尺寸目標的更有效和更可靠的檢測。 由於具有“剩餘”性質,因此與其他雙向方法相比,可以輕鬆地對其進行訓練並將其集成到不同的主幹(甚至更深或更輕)上。

爲了避免手工製作的錨問題,將採用一些無錨方法來進一步提高檢測準確性。

&Notes

Contributions

  • 提出了一種新穎的殘餘雙融合特徵金字塔,將深層和淺層的特徵融合到更精確的單發物體檢測中。
  • 由於其“殘留”性質,可以輕鬆地訓練新特徵金字塔並將其集成到不同的主幹中。
  • 當評估其在不同數據集,目標大小和目標類別上的性能時,可以更好地概括殘差金字塔。
  • BiFusion模塊可以減少合併對目標檢測的平移不變性影響。
  • 在VOC和MS COCO數據集上進行的大量實驗表明,該方法實現了SOTA結果,可實現高精度,高效的目標檢測。

Think:

  • 就文章中提到問題:池化會導致特徵的移位。下面則是文章的解決辦法,個人沒搞明白這個操作是什麼意思。有大佬明白的話,麻煩告知解釋一下!

we use a reshaping technique to divide it into four sub-patches. Then, 11? convolution is applied to fuse four sub-patches and FM i-1 to generate C i-1 channels of features.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章