【論文筆記】:EFPN

&Title

在這裏插入圖片描述

&Summary

挑戰: 小物體檢測仍然是一個尚未解決的挑戰,因爲很難僅提取幾個像素的小物體信息。

先前工作: 雖然在特徵金字塔網絡中進行尺度級別的相應檢測可以緩解此問題,但我們發現各種尺度的特徵耦合仍然會損害小物體的性能。

ours methods: 提出了擴展特徵金字塔網絡(EFPN),它具有專門用於小目標檢測的超高分辨率金字塔等級。
具體來說:

  • 設計了一個新穎的模塊,稱爲特徵紋理轉移(FTT),該模塊用於超分辨特徵並同時提取可信的區域細節。
  • 設計了前景-背景平衡損失函數來減輕前景和背景的面積不平衡。

效果: 所提出的EFPN在計算和存儲上都是有效的,並且在小型交通標誌數據集清華騰訊100K小型通用對象檢測數據集MS COCO上產生了最新的結果。

contributions:

  • 我們提出了擴展特徵金字塔網絡(EFPN),它可以提高小物體檢測的性能。
  • 我們設計了一個基於關鍵特徵參考的SR模塊,稱爲特徵紋理轉移(FTT),爲擴展的特徵金字塔提供了可信的細節,從而可以更精確地檢測小物體。
  • 引入了前景背景平衡損失函數,以引起人們對正像素的注意,減輕了前景和背景的面積失衡。
  • 我們的高效方法大大提高了探測器的性能,併成爲清華騰訊100K和小類別的探測器的最新技術

&Research Objective

  • 小目標檢測

雖然在特徵金字塔網絡中進行尺度級別的相應檢測可以緩解此問題,但作者發現各種尺度的特徵耦合仍然會損害小物體的性能。在文章中,作者提出了擴展特徵金字塔網絡(EFPN),它具有專門用於小物體檢測的超高分辨率金字塔等級。

&Problem Statement

  • 反覆使用池化操作: 儘管一些通用物體檢測器在本質上提高了精度和效率,但是當檢測具有幾個像素的小物體時它們仍然表現不佳。 這是由於CNN反覆使用池化層來提取高級語義,因此在下采樣過程中濾除小對象的像素。

  • FPN的侷限性: 儘管FPN提高了多尺度檢測性能,但FPN檢測器中金字塔等級與提議大小之間的啓發式映射機制可能會使小物體檢測感到難以理解。

    利用低級功能是獲取有關小對象信息的一種方法。特徵金字塔網絡(FPN)是通過融合不同級別的特徵並構建特徵金字塔來增強特徵的第一種方法,其中上部特徵圖負責較大的物體檢測,下部特徵圖負責較小的物體檢測
    在這裏插入圖片描述
    如圖1(a)所示,小型對象必須與中型對象和某些大型對象共享相同的特徵圖,而像大型對象這樣的簡單情況則可以從適當的級別選擇特徵。此外,如圖1(b)所示,FPN底層的檢測精度和召回率隨着對象比例的減小而急劇下降。圖1表明,普通FPN檢測器中跨尺度的特徵耦合仍然會降低小物體檢測的能力。

  • 超分辨率(SR)方法: 補償小對象信息丟失的另一種方法是提高特徵分辨率。早期的實踐直接對輸入圖像進行超分辨,但是在隨後的網絡中特徵提取的計算成本很高。其他SR方法避免增加CNN主幹網的負擔,但他們僅根據低分辨率功能圖來想象缺少的細節,而忽略了在主幹網其他功能中編碼的可信細節。 因此,他們傾向於在CNN特徵上製造假紋理和僞像,從而導致誤報。

&Method(s)

  • 提出了擴展特徵金字塔網絡(EFPN),它利用具有豐富區域細節的大規模SR特徵來分離中小型物體檢測。

EFPN以專門用於小型物體檢測的高分辨率級別擴展了原始FPN。爲了避免直接的高分辨率圖像輸入會導致昂貴的計算,我們的方法的擴展高分辨率特徵圖是通過特徵SR嵌入式FPN類框架生成的。在構建了普通特徵金字塔之後,所提出的特徵紋理轉移(FTT)模塊首先結合了來自低分辨率特徵的深度語義和來自高分辨率特徵參考的淺層區域紋理。然後,後續的類似FPN的橫向連接將通過量身定製的中間CNN特徵圖進一步豐富區域特徵。

  • EFPN優勢:高分辨率特徵圖的生成取決於CNN和FPN生成的原始真實特徵,而不是依賴於其他類似方法中不可靠的想象力。如圖1(b)所示,EFPN中具有可信細節的擴展金字塔等級大大提高了對小物體的檢測性能
  • 引入了由大型輸入圖像生成的特徵作爲監督來優化EFPN
  • 設計了前景-背景平衡損失函數。

我們認爲,一般的重建損失將導致對正像素的學習不足,因爲小的實例僅覆蓋了整個特徵圖上的分數區域。 考慮到前景背景平衡的重要性,我們將對象區域的損失添加到全局損失函數中,從而引起人們對正像素特徵質量的關注。

在這裏插入圖片描述

EFPN

FPN通過對高級CNN特徵圖進行上採樣並通過橫向連接將它們與較低特徵融合來構建4層特徵金字塔。 儘管不同金字塔層次上的特徵負責不同大小的對象.
小對象檢測和中等對象檢測 仍耦合在FPN的同一底層P2上,如圖1所示。爲緩解此問題,我們建議使用EFPN擴展帶有新級別的特徵金字塔,可解決小物體檢測以及更多區域細節的問題。

EFPN圖如上圖圖二所示。下面公式是EFPN中擴展的操作的描述:
在這裏插入圖片描述
詳細的內部操作解釋和細節看原文!

FTT

在這裏插入圖片描述
上圖爲FTT模塊的框架。 輸入特徵P3的主要語義內容首先由內容提取器提取。 然後,我們通過Sub-Pixel卷積將內容特徵的分辨率提高一倍。 紋理提取器從主流特徵和參考特徵的組合中選擇可靠的區域紋理用於小物體檢測。 最後,殘餘連接有助於將紋理與超分辨的內容特徵融合在一起以生成P‘ 3用於擴展功能金字塔。
FTT的輸出P‘3可以定義爲:
在這裏插入圖片描述
其中Et(·)表示紋理提取器分量,Ec(·)表示內容提取器分量,↑2×此處表示通過子像素卷積[29]進行的雙倍放大,而 || 表示特徵串聯。 內容提取器和紋理提取器均由殘差塊組成。

看作者做的實驗,FTT的效果其實也不咋地,加上FTT僅僅使得小目標的精度提高0.8個點,而中目標卻降了0.6個點,在大目標上居然下降了2.2個點,呃,實在是很慘,而且整體的效果肯定也不好,不然就不會只單獨列出了小中大目標的精度對比了。
在這裏插入圖片描述

Training Loss

前景背景平衡損失旨在提高EFPN的綜合質量
常見的全局損失將導致對小物體區域的學習不足,因爲小物體僅構成整個圖像的一部分。 前景-背景平衡損失功能通過兩個部分改善了背景和前景的特徵質量:

  1. 全局重建損失
    在這裏插入圖片描述
    由於背景像素構成了圖像的大部分,因此全局構造損失主要是增強了與真實背景特徵的相似度。 在這裏,我們採用通常在SR中使用的l1損失作爲全局重建損失Lglob。其中F表示生成的特徵圖,Ft表示目標特徵圖。

  2. 正補丁損失。
    在這裏插入圖片描述
    正補丁損失用於引起人們對正像素的注意,因爲嚴重的前景背景不平衡會阻礙檢測器性能。 我們將前景區域的l1損耗用作正補丁損耗Lglob。其中Ppos表示地面真實物體的補丁,N表示正像素的總數,而(x,y)表示特徵圖上像素的座標。 正補丁損失對對象所處的區域起更強的約束作用,從而強制學習這些區域的真實表示。

然後將前景背景平衡損失函數Lfbb定義爲:
在這裏插入圖片描述
其中λ是權重平衡因子。 平衡損失函數通過改善前景區域的特徵質量來挖掘真實的正數,並通過改善背景區域的特徵質量來消除誤報。

Total loss:
引入了2倍FPN的特徵圖,以監督EFPN的訓練過程。 不僅底部金字塔的擴展級別受到監視,而且FTT模塊也受到監視。 EFPN的總體培訓目標定義爲:
在這裏插入圖片描述
這裏,P2×2是來自2×輸入FPN的目標P2,P2×3是來自2×輸入FPN的目標P3。

&Evaluation

在這裏插入圖片描述
在這裏插入圖片描述

&Conclusion

作者提出了EFPN來解決小物體檢測問題。 在類似FPN的框架中嵌入了新穎的FTT模塊,以有效地捕獲擴展金字塔等級的更多區域細節。 另外,作者設計了前景與背景平衡的訓練損失,以減輕前景與背景的區域不平衡。 各種數據集上的最新性能證明了EFPN在小物體檢測中的優越性。
EFPN可以與各種檢測器結合使用,以增強對小物體的檢測,這意味着EFPN可以轉移到更具體的小物體檢測情況,例如人臉檢測或衛星圖像檢測。

Thinks

  • 文章sub-Pixel卷積的作用:將內容特徵的分辨率提高一倍。這個操作應該是提高小目標精度的關鍵。因爲文章提到了,補償小對象信息丟失的一種方法是提高特徵分辨率。
  • 文章僅用了底層信息的融合(cat),這是因爲前面所說的,最底層的特徵層是檢測中小目標的關鍵,這個點或許可以好好思考一下,可以做出效果。
  • FTT的漲點效果一點都不好,相比較來說,balance loss 的效果比較明顯,說明了loss這塊做的前景還是蠻大的。
  • 僅僅增加了一層預測層,沒有將處理完後的層融合到其他層上去,效果僅僅在小目標上(可以理解,畢竟只是用了中低層語義信息),但是大目標上是爆炸的降低,這個原因是不是因爲去掉了原來五層中的上層中的一層的原因???
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章