SSD系列(SSD、DSSD、FSSD 、RefineDet)

      • SSD:SingleShotMultiBoxDetector
        • 簡介
          • one-stage、基於迴歸的目標檢測,74.3mAP、59FPS ( on VOC2007 test )
        • 網絡結構
          • SSD 300中輸入圖像的大小是300x300,特徵提取部分使用了VGG16的卷積層,並將VGG16的兩個全連接層轉換成了普通的卷積層(圖中conv6和conv7)。由SSD的網絡結構可以看出,SSD使用6個不同特徵圖檢測不同尺度的目標。低層預測小目標,高層預測大目標
        • 主要特點
          • 同時使用多個卷積層的輸出(6個)來做分類和位置迴歸
          • 邊界框(bound ing boxs)的生成與Faster R-CNN中anchor類似的方式
            • 在特徵圖的每個像素點處,生成不同寬高比的default box(anchor box),論文中設置的寬高比爲{1,2,3,1/2,1/3}。假設每個像素點有k個default box,需要對每個default box進行分類和迴歸,其中用於分類的參數爲c*k(c表示類別數),用於迴歸的參數爲4*k
            • default box的尺寸計算是基於下面的公式的(YOLOV3是直接利用kmeans生成的,也不需要寬高比。faste-rcnn是直接設置的anchor Scales )

          • 先驗框匹配的原則
            • 先驗框匹配的目的、
              • 爲了訓練。在訓練過程中,首先要確定訓練圖片中的ground truth(真實目標)與哪個先驗框來進行匹配,與之匹配的先驗框所對應的邊界框將負責預測它。
            • SSD匹配原則
              • 1、對於圖片中每個ground truth,找到與其IOU最大的先驗框,該先驗框與其匹配,這樣,可以保證每個ground truth一定與某個先驗框匹配。(一個圖片中ground truth是非常少的, 而先驗框卻很多,如果僅按這一個原則匹配,很多先驗框會是負樣本(匹配不上的)造成正負樣本極其不平衡,所以有了下一個原則)
              • 2、對於剩餘的未匹配的先驗框,若與某個ground truth的  IOU大於某個閾值(一般是0.5),那麼該先驗框也與這個ground truth進行匹配。
      • 從特徵融合的角度來提升準確度解決小目標檢測的問題(DSSD、FSSD)
      • DSSD:DeconvolutionalSingleShotDetector
        • 簡介
          • 基礎信息: cvpr2017 二作就是SSD的一作Wei Liu
          • 主要解決問題:SSD對小目標不夠魯棒(SSD雖然採用了多層feature map來生成bbox,淺層的feature map對小目標的檢測可以起到一定的作用,但是淺層的feature map的表徵能力不夠強(因爲層數淺,可能不能提取到語義特徵))
          • 主要貢獻: 在常用的目標檢測算法中加入上下文信息(特徵融合)。即(基於CNN的目標檢測算法基本都是利用一層的信息(feature map),比如YOLO,Faster RCNN等。還有利用多層的feature map 來進行預測的,比如ssd算法。那麼各層之間的信息的結合並沒有充分的利用。)
        • 網絡結構
          • 基礎網絡是Residual-101與SSD (即用resnet 101 替代了原來的vggnet,因爲更深的網絡具有更強的表徵能力)
          • prediction Moudule(該模塊的消融實驗結果表明變體c結果最好)(注意:下圖中的cls 與 loc 只是分別畫出,但其仍然都是基於迴歸的,只是loss不同)
          • Deconvolution module(中間的Eltw Product可以是求和也可以是乘積,實驗顯示爲乘積時效果更好)(該模塊中的Deconv是爲了替代bilinear upsampling)

          •  
        • 總結
          • 提高淺層的表徵能力,是可以提高類似檢測器對小目標的檢測能力
      • FSSD:Feature Fusion Single Shot Multibox Detector
        • 簡介
          • 北航
          • 主要貢獻:提出一個特徵融合模塊(Feature Fusion Module)。其中:方式c是FPN的方式,方式d是SSD中採用的方式, ​e是本文采用的融合方式,就是把網絡中某些feature調整爲同一szie再 contact,得到一個像素層,以此層爲base layer來生成pyramid feature map,作者稱之爲Feature Fusion Module。該方式與FPN相比,只需要融合一次,較爲簡單,在融合時方式e採用的時concat,標準的fpn採用的時sum

        • 網絡結構

          • 注:這裏concat之後之所以是512是因爲作者是從三個裏面選擇了兩個feature map進行融合 。在生成pyramid feature map 時,在fusion feature map接了個33卷積後作爲第一層​的。沒有直接將fusion feature map作爲第一層(實驗之後選擇的)
      • RefineDet:Single-Shot Refinement Neural Network for Object Detection
        • 簡介
          • cvpr2018
          • two stage(生成候選框+確定目標的位置與類別)與one stage(直接回歸) 融合,(最後論文還是定位到one-stage)
          • SSD、FPN(爲了特徵融合)、RPN(two stage的體現,爲了提高object detection位置的準確性)的結合
          • 模型主要包含兩大模塊, 分別是anchor精化模塊和物體檢測模塊. 網絡採用了類似FPN的思想, 不僅提升了精度, 同時還在速度方面取得了與one-stage方案相媲美的表現
          • 主要特點是:先對anchor進行一次精細化(提取出屬於前景的ancho,並調整其位置與尺寸),之後在基於精細化後的anchor進行物體檢測
        • 網絡結構

          • 該網絡與faster-rcnn有類似之處,
            • ARM(anchor refinement moudle)類似與RPN,其起到的作用是對feature map上生成的anchor的位置和尺寸的微調,以及前景和背景的判斷,之後將背景過濾掉,不傳入ODM(object detection moudle)(但是網上覆現的源碼並沒有將背景濾掉,可能是因爲要爲anchor設置索引並且要存儲前景信息的索引,還要映射回來麻煩?)
            • ODM相當於SSD的操作
            • TCB(Transfer Connection Block),用於鏈接ARM和ODM,並且可以構成類似FPN的結構,實現特徵的融合

  • 部分內容來源網絡,如有侵權,請聯繫刪除

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章