【論文筆記】:Learning Rich Features at High-Speed for Single-Shot Object Detection

&Title:

在這裏插入圖片描述
ICCV 2019

&Summary

作者設計了一個one-stage檢測框架,它結合了微調預訓練模型和從零開始訓練的優點。該框架包括一個預訓練過的標準backbone網絡,一個輕量級的從零開始訓練的輔助網絡。此外,作者認爲通常使用的自頂向下的金字塔表示只關注於將高級語義從頂層傳遞到底層,因此在檢測框架中引入了一個雙向網絡,它可以有效地傳遞中低層次和高層次的語義信息。

提出的方法相比baseline在AP指標上分別提高了7.4%和4.2%。在COCO測試集上,固定300×300輸入,本文提出的以ResNet爲backbone的檢測器在單級推理方面超過了現有的單級檢測方法,AP達到了34.3 ,在一個Titan X GPU上時間爲19毫秒,同時兼顧了精度和速度。

one-stage目標檢測有通用的策略:利用一個經過ImageNet預訓練的backbone完成分類任務,利用一個自上而下的特徵金字塔表示形式處理尺度變化問題。

&Research Objective

主要研究目標是提升小目標檢測精度

  • 引入“從零開始”訓練的思想,以減少分類和定位之間的任務差距
  • 引入雙向網絡,有效傳遞中低層次和高層次的語義信息

&Problem Statement

  • 小目標檢測的難點
    小目標檢測是一個具有挑戰性的問題,它既需要精確描述對象的低層/中層信息,也需要區分目標對象與背景或其他對象類別的高級語義信息。

    近來的one-stage探測器的目標是獲得與two-stage相近的檢測精度。儘管在大中型目標上效果較好,但這些探測器在小目標上的性能卻低於預期。例如,當使用一個500×500的輸入時,使用RetinaNet在COCO數據集上, AP爲47,但在小目標上,AP只有 14。

  • 預訓練網絡的利弊
    主流的one-stage目標檢測框架的通用策略是:利用一個經過ImageNet預訓練的backbone完成分類任務。然後利用檢測目標的數據集進行微調,從而達到快速收斂的效果。但是目標檢測中的分類任務和定位任務之間仍然存在較大差異,尤其是在目標框重疊閾值高的情況下。

    在ICCV2019Kaiming He的最新論文中,也對利用ImageNet進行預訓練然後fine-tune這種模式進行了思考,並且認爲從零開始訓練檢測模型,有助於精確定位。但是另一方面,與典型的基於微調的網絡相比,從零開始訓練非常深的網絡需要的訓練時間要長得多。

&Method(s)

本文引入一個新的檢測框架,優勢互補,將預訓練和從零開始學習的優點結合起來,組成了一個標準網絡,該網絡使用一個預訓練的backbone和一個從零開始訓練的輔助網絡。輔助網絡爲標準的預訓練網絡提供低/中級信息的補充,有利於中小目標的檢測。

網絡結構

在這裏插入圖片描述
圖3(a)顯示了由三個主要組件組成的總體架構:標準SSD網絡,輕量級暫存網絡(LSN)和雙向網絡。如前所述,標準SSD使用預先訓練的網絡主幹。因此,我們將來自標準SSD層的功能(conv4 3,FC 7,conv8 2,conv9 2,conv10 2和conv11 2)稱爲主幹功能,因爲它們源自預先訓練的網絡主幹。我們採用VGG-16作爲骨幹網。輕量級暫存網絡(LSN)產生低/中級特徵表示,然後將其注入到後續標準預測層的主幹特徵中以改善其性能。然後,將當前層和前一層的結果特徵以自下而上的方式組合到我們的雙向網絡中。我們雙向網絡中的自頂向下方案包含獨立的並行連接,以將高級語義信息從網絡的較後一層注入到前一層。

LSN輕量級輔助網絡

在這裏插入圖片描述
LSN網絡與SSD特徵層緊密相連,用於構造低層/中層特徵表示,稱爲LSN特徵。圖中DS表示下采樣。

SDS VS LDS

如下圖所示,現有的特徵提取策略是:從主幹網絡中提取特徵,在多個卷積塊和最大池化層的重複堆疊中提取特徵,以此產生語義信息豐富的特徵。
在這裏插入圖片描述
這種特徵提取方式有利於圖像分類任務,因爲分類任務要求的是平移不變性的即目標位置發生變化,最後輸出的類別信息也應該一致。
但是在目標檢測任務中,由於不僅僅有分類的要求,還需要進行目標的定位,因此更需要準確的輪廓信息,而特徵中的低層,中層特徵正是包含這種輪廓邊緣信息,對於目標檢測十分重要。

如下圖,爲了彌補主幹網絡在提取特徵過程中的損失,本文提出了LSN特徵提取方案。首先經過一個較大的下採樣率進行池化操作,將輸入圖片的size調整到SSD中第一層的輸入size,然後被送入到一個輕量級的連續操作LSO(Light-weight-serial operations)中去,LSO包括卷積層、BN層、ReLU層等結構。
在這裏插入圖片描述
LSN是參數是隨機初始化的。它遵循類似於標準SSD的金字塔特徵層次結構

雙向網絡

自底向上網絡

下圖是bottom-up網絡的結構示意,結合backbone和來自LSN特徵,將不同層次的特徵以前級聯的方式進行前向傳播,得到前向特徵。將此任務稱爲自底向上的特徵傳播,用B表示。Former-Layer feature 是前一層的B(因爲是級聯)。
在這裏插入圖片描述

自上向下網絡

爲了進一步將高級語義信息從後一層注入到前一層,引入了自上而下的網絡。如下圖所示,該網絡將所有後續層的所有特性連接到當前層,它通過網絡中獨立的並行連接來傳遞高級語義。將上層的所有特徵進上採樣到當前層的尺寸(獨立並行連接),然後融合,再與本層的特徵進行融合。
在這裏插入圖片描述
注:在自上而下的網絡中,如果本身處於特徵中的最高層,就不需要融合任何底層特徵。這意味着最高層的前向特徵被直接用作預測。

&Evaluation

在這裏插入圖片描述
對比於RetinaNet來說,對於小目標的檢測數量有明顯的增加。
在這裏插入圖片描述
雖然基於two-stage的網絡可以獲得更高的精度,但是它們的計算開銷很大,通常需要較大的輸入分辨率,並且處理圖像的時間通常超過100毫秒。例如,Cascade R-CNN的AP達到42.8,但是處理圖像需要141ms。本文的檢測器具有速度和精度的良好平衡。
在這裏插入圖片描述
由上圖可以看出,本文的方法對小目標的檢測性能提升十分明顯。

&Conclusion

提出了一種one-stage的目標檢測方法,該方法由標準SSD網絡、輕量級隨機初始化網絡(LSN)和雙向網絡三部分組成。

LSN是從零開始訓練的,產生的特徵用來補充主幹網絡得到的特徵。雙向網絡的設計目的是在檢測網絡中同時傳遞中低層次和高層次的語義信息。在COCO和UAVDT數據集上的實驗結果表明,本文提出的方法達到了精度和速度的良好均衡。

&Notes

Contributions

  • 首先,我們引入了一個輕量級的暫存器網絡(LSN),該設備從零開始進行訓練,將降採樣後的圖像作爲輸入,並將其通過幾個卷積層以有效地構建低/中級特徵。 然後將這些低/中級功能與經過預先訓練的主幹一起注入到標準檢測網絡中。
  • 此外,我們引入了雙向網絡,該雙向網絡在檢測網絡內傳播低/中層和高層語義信息。

雙向網絡與FPN結構相比的不同點:

  1. 雙向網絡中的自底向上方案以級聯的方式將前一層的特徵傳播到後一層
  2. FPN中的top-down通路通過級聯操作逐層融合了許多CNN層。在雙向網絡的top-down通路,預測層通過獨立的並行連接進行融合,而不是逐層逐層的級聯/順序融合。

Thinks

  • 本文雖然說是引入了一個從頭開始訓練的LSN網絡,以及一個所謂的雙向網絡,其實質其實就是增加了來自淺層的小目標信息。
  • 現在的雙向網絡,雙向FPN等大量出現了,說明了“雙向”的作用對於精度的提升效果還是很明顯的,完全可以換個名頭,繼續做“雙向”的提升,額,大部分人也都是這個想法我猜……
  • 關於LSN,之前看了一篇IPG-Net,是引入了圖像引導網絡,也類似於增加一個輔助網絡,個人覺得,其目的也跟本文方法一樣,也是增加淺層圖像的小目標信息,這個應該也是本文提升小目標檢測精度的主要原因。
  • ……
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章