-
-
- SSD:SingleShotMultiBoxDetector
- 簡介
- one-stage、基於迴歸的目標檢測,74.3mAP、59FPS ( on VOC2007 test )
- 網絡結構
- SSD 300中輸入圖像的大小是300x300,特徵提取部分使用了VGG16的卷積層,並將VGG16的兩個全連接層轉換成了普通的卷積層(圖中conv6和conv7)。由SSD的網絡結構可以看出,SSD使用6個不同特徵圖檢測不同尺度的目標。低層預測小目標,高層預測大目標
- 主要特點
- 同時使用多個卷積層的輸出(6個)來做分類和位置迴歸
- 邊界框(bound ing boxs)的生成與Faster R-CNN中anchor類似的方式
- 在特徵圖的每個像素點處,生成不同寬高比的default box(anchor box),論文中設置的寬高比爲{1,2,3,1/2,1/3}。假設每個像素點有k個default box,需要對每個default box進行分類和迴歸,其中用於分類的參數爲c*k(c表示類別數),用於迴歸的參數爲4*k
- default box的尺寸計算是基於下面的公式的(YOLOV3是直接利用kmeans生成的,也不需要寬高比。faste-rcnn是直接設置的anchor Scales )
- 先驗框匹配的原則
- 先驗框匹配的目的、
- 爲了訓練。在訓練過程中,首先要確定訓練圖片中的ground truth(真實目標)與哪個先驗框來進行匹配,與之匹配的先驗框所對應的邊界框將負責預測它。
- SSD匹配原則
- 1、對於圖片中每個ground truth,找到與其IOU最大的先驗框,該先驗框與其匹配,這樣,可以保證每個ground truth一定與某個先驗框匹配。(一個圖片中ground truth是非常少的, 而先驗框卻很多,如果僅按這一個原則匹配,很多先驗框會是負樣本(匹配不上的)造成正負樣本極其不平衡,所以有了下一個原則)
- 2、對於剩餘的未匹配的先驗框,若與某個ground truth的 IOU大於某個閾值(一般是0.5),那麼該先驗框也與這個ground truth進行匹配。
- 先驗框匹配的目的、
- 簡介
- 從特徵融合的角度來提升準確度解決小目標檢測的問題(DSSD、FSSD)
- DSSD:DeconvolutionalSingleShotDetector
- 簡介
- 基礎信息: cvpr2017 二作就是SSD的一作Wei Liu
- 主要解決問題:SSD對小目標不夠魯棒(SSD雖然採用了多層feature map來生成bbox,淺層的feature map對小目標的檢測可以起到一定的作用,但是淺層的feature map的表徵能力不夠強(因爲層數淺,可能不能提取到語義特徵))
- 主要貢獻: 在常用的目標檢測算法中加入上下文信息(特徵融合)。即(基於CNN的目標檢測算法基本都是利用一層的信息(feature map),比如YOLO,Faster RCNN等。還有利用多層的feature map 來進行預測的,比如ssd算法。那麼各層之間的信息的結合並沒有充分的利用。)
- 網絡結構
- 基礎網絡是Residual-101與SSD (即用resnet 101 替代了原來的vggnet,因爲更深的網絡具有更強的表徵能力)
- prediction Moudule(該模塊的消融實驗結果表明變體c結果最好)(注意:下圖中的cls 與 loc 只是分別畫出,但其仍然都是基於迴歸的,只是loss不同)
- Deconvolution module(中間的Eltw Product可以是求和也可以是乘積,實驗顯示爲乘積時效果更好)(該模塊中的Deconv是爲了替代bilinear upsampling)
- 總結
- 提高淺層的表徵能力,是可以提高類似檢測器對小目標的檢測能力
- 簡介
- FSSD:Feature Fusion Single Shot Multibox Detector
- 簡介
- 北航
- 主要貢獻:提出一個特徵融合模塊(Feature Fusion Module)。其中:方式c是FPN的方式,方式d是SSD中採用的方式, e是本文采用的融合方式,就是把網絡中某些feature調整爲同一szie再 contact,得到一個像素層,以此層爲base layer來生成pyramid feature map,作者稱之爲Feature Fusion Module。該方式與FPN相比,只需要融合一次,較爲簡單,在融合時方式e採用的時concat,標準的fpn採用的時sum
- 網絡結構
- 注:這裏concat之後之所以是512是因爲作者是從三個裏面選擇了兩個feature map進行融合 。在生成pyramid feature map 時,在fusion feature map接了個33卷積後作爲第一層的。沒有直接將fusion feature map作爲第一層(實驗之後選擇的)
- 簡介
- RefineDet:Single-Shot Refinement Neural Network for Object Detection
- 簡介
- cvpr2018
- two stage(生成候選框+確定目標的位置與類別)與one stage(直接回歸) 融合,(最後論文還是定位到one-stage)
- SSD、FPN(爲了特徵融合)、RPN(two stage的體現,爲了提高object detection位置的準確性)的結合
- 模型主要包含兩大模塊, 分別是anchor精化模塊和物體檢測模塊. 網絡採用了類似FPN的思想, 不僅提升了精度, 同時還在速度方面取得了與one-stage方案相媲美的表現
- 主要特點是:先對anchor進行一次精細化(提取出屬於前景的ancho,並調整其位置與尺寸),之後在基於精細化後的anchor進行物體檢測
- 網絡結構
- 該網絡與faster-rcnn有類似之處,
- ARM(anchor refinement moudle)類似與RPN,其起到的作用是對feature map上生成的anchor的位置和尺寸的微調,以及前景和背景的判斷,之後將背景過濾掉,不傳入ODM(object detection moudle)(但是網上覆現的源碼並沒有將背景濾掉,可能是因爲要爲anchor設置索引並且要存儲前景信息的索引,還要映射回來麻煩?)
- ODM相當於SSD的操作
- TCB(Transfer Connection Block),用於鏈接ARM和ODM,並且可以構成類似FPN的結構,實現特徵的融合
- 該網絡與faster-rcnn有類似之處,
- 簡介
- SSD:SingleShotMultiBoxDetector
-
-
部分內容來源網絡,如有侵權,請聯繫刪除
SSD系列(SSD、DSSD、FSSD 、RefineDet)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.