【論文筆記】:IPG-Net: Image Pyramid Guidance Network for Object Detection

&Title:

在這裏插入圖片描述

&Summary

在深度卷積網絡中,隨着卷積層變得更深而導致位置或空間信息的丟失,這種空間信息的丟失導致目標檢測中的特徵未對準。這裏,特徵未對齊意味着錨點和卷積特徵之間存在一些偏移。除了對視空間信息外,較小的目標也很容易在更深的卷積層中丟失。解決這一問題的關鍵問題就在於,如何獲取淺層的足夠的語義信息,來解決上訴的兩個問題:

  • 特徵不對齊
  • 小目標在深層中丟失

作者引入了圖像金字塔,以便在主幹網絡的特徵金字塔的每個階段提供更多的空間信息,來解決上訴問題。
其中圖像金字塔是從淺層子網獲得的,它具有更豐富的空間信息,尤其是對小物體。然後設計了一個融合模塊,將新的圖像金字塔特徵融合到骨幹網絡中。

contributions:

  • 我們提出了一種新的圖像金字塔引導(IPG)網絡,以解決深層中的空間信息和小物體特徵丟失的問題。
  • 我們設計了一個新的淺層圖像金字塔引導子網,以提取圖像金字塔特徵,它既靈活又輕巧。
  • 我們還設計了一個靈活的融合模塊,該模塊簡單但有效。

&Research Objective

  • 獲取淺層足夠的語義信息

    For Convolutional Neural Network based object detection, there is a typical dilemma: the spatial information is well kept in the
    shallow layers which unfortunately do not have enough semantic
    information, while the deep layers have high semantic concept but
    lost a lot of spatial information, resulting in serious information
    imbalance.

  • 解決特徵不對齊問題

    FPN,主要解決了淺層缺少高語義信息的問題。 儘管特徵金字塔網絡可以提供淺層特徵的語義信息,但在深層特徵中仍然存在特徵未對準和信息丟失的情況。
    特徵未對齊是指錨點和卷積特徵之間存在一些偏移。

作者認爲,用於檢測的更好的特徵提取器應該有兩個共同的特徵:

  1. 足夠的淺圖像信息用於邊界框迴歸,因爲目標檢測是典型的迴歸任務。
  2. 足夠的語義信息用於分類,這意味着輸出特徵來自深層。

&Problem Statement

對於基於卷積神經網絡的目標檢測,存在一個典型的難題:空間信息被很好地保留在淺層中,不幸的是,這些淺層沒有足夠的語義信息,而深層卻具有較高的語義概念,但丟失了大量空間信息,因此嚴重的信息失衡。

深度卷積網絡將隨着該層變得更深而導致位置或空間信息的丟失。 對於分類任務,此屬性可能不是問題,而框迴歸對於檢測任務很重要。 但是,這種空間信息的丟失導致對象檢測中的特徵未對準。 在這裏,特徵對齊意味着錨點和卷積特徵之間存在一些偏移。 除了丟失空間信息外,較小的對象也很容易在更深的卷積層中丟失

先前的工作出現了像PANet、libra R-CNN、EFTP等集中在解決特徵級別的不平衡和不對準問題,但是在目標檢測中任然沒有人能夠完全解決這個問題。

&Method(s)

爲了獲取淺層的足夠語義信息,特徵金字塔網絡(FPN)用於構建自頂向下的傳播路徑。本文中,除了對淺層信息進行自上而下的組合以外,我們提出了一種新穎的網絡,稱爲圖像金字塔引導網絡(IPG-Net),以確保每層的空間信息和語義信息都足夠。
IPG網絡包含三個主要部分: 圖像金字塔引導子網,基於ResNet的骨幹網絡和融合模塊。

  • 圖像金字塔引導子網爲每個比例尺的特徵提供空間信息,以解決信息不平衡的問題。即使在ResNet的最深層階段,該子網也有望爲邊界框迴歸和分類提供足夠的空間信息。
  • 設計了一個有效的融合模塊來融合來自圖像金字塔的特徵和來自特徵金字塔的特徵。

網絡的整體結構如下圖所示:以ResNet爲基準來構建新骨幹網絡、圖像金字塔引導網絡、融合模塊。
在這裏插入圖片描述
算法過程: 圖像金字塔引導子網絡從圖像金字塔中接收一組圖像,並提取圖像金字塔特徵進行融合。子網的功能是提取淺層特徵以提供空間信息和詳細信息。圖像金字塔特徵用於引導骨幹網絡保持空間信息和小物體的特徵。 我們使用融合模塊執行引導。 融合模塊的功能是融合骨幹網中的深層特徵和圖像金字塔引導子網中的淺層特徵。 融合模塊的思想是將兩種類型的特徵進行轉換,然後將它們組合在一起,以實現目標檢測(尤其是小目標檢測)的增強效果。

Image Pyramid Guidance Sub-Network

傳統上,我們會引入圖像金字塔來獲得更多的比例,以減少圖像比例的影響,因爲卷積網絡不具有比例不變的能力。 通過這種方式可以顯着提高性能,但是計算量也太大,無法在深度神經網絡的訓練階段提供。

提出疑問: because convolution network don’t have the scale-invariant ability???卷積網絡不具有比例不變的能力,怎麼理解????
提出疑問: 計算量大體現在什麼地方???? 因爲要在每個圖像尺度上獨立地計算特徵,所以很慢,計算量也大??存疑
提出疑問: 無法在深度神經網絡訓練使用,那是否可以在淺層?????

與傳統目的不同,這裏我們使用圖像金字塔來指導骨幹網絡,以學習更好的檢測特徵。 更好的特徵意味着不同尺度的所有特徵都具有豐富的空間信息和足夠的語義信息,例如:沒有特徵不對齊和信息不平衡。

圖像金字塔引導子網的輸入是一個簡單的圖像金字塔,可以表示爲:
在這裏插入圖片描述
其中H和W是與物體檢測中的公共輸入圖像相同的圖像大小,n是圖像金字塔中的層數。 我們在實驗中將n = 4設置爲與標準ResNet的深度一致。

圖像金字塔引導子網如下圖2所示
在這裏插入圖片描述
圖像金字塔引導子網的結構由兩部分組成,一個是7× 7次卷積,然後進行2×2最大池化,另一個是殘差塊。 殘差塊接受具有相同維度的特徵和具有與骨幹網絡中特徵維度相同的不同維度的輸出特徵。
爲什麼使用淺層網絡提取圖像金字塔特徵有兩個原因:

  • 一方面,IPG的功能是獲取空間或細節信息,深度卷積將丟失這些信息。
  • 另一方面,輕量級設計不會增加過多的計算量。

具有圖像金字塔的圖像金字塔引導子網的輸出可以表示爲:
在這裏插入圖片描述
其中f(·)表示圖像金字塔引導子網,如圖2所示,在這裏插入圖片描述表示級別i的圖像金字塔特徵。 來自不同等級圖像金字塔的所有特徵構成圖像金字塔特徵F。

Backbone Network

設計:從包含Res 1-5的標準ResNet修改了骨幹網。 在ResNet的末尾添加了新階段,每個新階段都包含兩個與ResNet相同的Bottleneck模塊。

消融研究表明,增加一個新階段可以比其他情況更好。 骨幹網太深也不利於檢測。
在這裏插入圖片描述

作者設計比標準ResNet更深的卷積網絡的原因

  • 圖像金字塔引導子網將足夠的空間信息或詳細信息提供到骨幹網絡中,從而減少了特徵未對準或細節丟失的影響。 深度骨幹網的優勢在於,骨幹網可以生成更好的語義信息,這有利於分類。
  • 網絡可以覆蓋更大範圍的物體。

Fusing Module

融合公式:
在這裏插入圖片描述
Oi是級別i中融合模塊的輸出功能;I0和Ii分別是圖像金字塔中層級 0 和層級 i 的圖像;β(·)表示融合模塊的融合功能;fi(·)表示層級 i 的圖像金字塔引導子網的輸出,gi(·)表示層級 i 的骨幹網的輸出。 如果圖像金字塔中有n個圖像,則層級數爲n。

作者提出了幾種不同的變體來證明圖像金字塔引導的有效性。 Sum,Product和Concatenation是在實驗中使用的三種融合模塊。具體融合方式如下圖所示:
在這裏插入圖片描述
消融實驗驗證了sum的效果更好
在這裏插入圖片描述

&Experiments

在coco數據集上:AP達到45.7
在這裏插入圖片描述
在pascal VOC 2007上:mAP達到85.9
在這裏插入圖片描述

&Conclusion

本文中,關注的主要問題是目標檢測的信息不平衡。在以前的檢測主幹中,淺層和深層之間存在嚴重的信息不平衡。本文提出了一種新穎的圖像金字塔引導網絡(IPG-Net),包括一個新的基於圖像金字塔引導的子網,一個融合模塊和一個基於圖像金字塔的骨幹網絡。

  • 新的子網可以提取適當的特徵,其中包含了空間信息和小目標信息。
  • 子模塊的圖像金字塔特徵和骨幹網絡的特徵通過融合模塊融合在一起,以減少特徵錯位問題和深層小目標丟失問題。

作者進行了大量的消融實驗,以驗證新型圖像金字塔引導網絡的有效性。 利用圖像金字塔引導的自然優勢,該工作還可以進一步擴展到視頻目標檢測任務。

&Notes

存在的挑戰:

Deep CNNs blur the feature.

更深的卷積網絡可在分類任務中提取更好的語義特徵,而無需定位目標。 但是,深度卷積對目標檢測不利,因爲深度特徵中的目標位置與原始圖像中的位置不對齊。 但是基於錨點的檢測算法在很大程度上依賴於以下假設:目標的位置與任何特徵的原始圖像對齊。 因此,錨點與特徵之間存在嚴重的未對準。 隨着深度的增加,該現象變得更加嚴重。

FPN suffers the misalignment.

特徵金字塔網絡融合了深層特徵和淺層特徵,從而實現了更好的檢測性能。 但是,由於深層特徵的模糊,在深層特徵和淺層特徵之間必須存在未對齊的情況。 例如,空間位置(i,j)對應於淺層中的目標k,但是空間位置(i,j)對應於深層中的目標w,k不等於w。

Deep CNNs lose small objects.

較深的CNN相對於初始圖像尺寸大了32 步長,因此在分類方面實現了高性能。 但是,大步幅也會導致缺少輸入圖像的詳細信息,例如小目標信息。 檢測任務中的小目標依賴於輸入圖像的細節信息,因此保持小目標的細節對於骨幹網絡至關重要。 我們通常會在淺層特徵中檢測缺少高語義信息的小目標。 特徵金字塔網絡通常用於構建從上到下的路徑,以提供淺層特徵的語義信息。 儘管FPN引入了語義信息,但是小目標的信息或特徵已經在更深的層次上丟失了,因此FPN無法解決小目標丟失的問題。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章