SSD系列（SSD、DSSD、FSSD 、RefineDet）

原創

吖吖尚

2019-08-28 13:35

- - SSD:SingleShotMultiBoxDetector
    - 簡介
      - one-stage、基於迴歸的目標檢測，74.3mAP、59FPS （ on VOC2007 test ）
    - 網絡結構
      - SSD 300中輸入圖像的大小是300x300，特徵提取部分使用了VGG16的卷積層，並將VGG16的兩個全連接層轉換成了普通的卷積層（圖中conv6和conv7）。由SSD的網絡結構可以看出，SSD使用6個不同特徵圖檢測不同尺度的目標。低層預測小目標，高層預測大目標
    - 主要特點
      - 同時使用多個卷積層的輸出（6個）來做分類和位置迴歸
      - 邊界框（bound ing boxs）的生成與Faster R-CNN中anchor類似的方式
        在特徵圖的每個像素點處，生成不同寬高比的default box(anchor box),論文中設置的寬高比爲{1,2,3,1/2,1/3}。假設每個像素點有k個default box，需要對每個default box進行分類和迴歸，其中用於分類的參數爲c*k(c表示類別數)，用於迴歸的參數爲4*k
        
        default box的尺寸計算是基於下面的公式的（YOLOV3是直接利用kmeans生成的，也不需要寬高比。faste-rcnn是直接設置的anchor Scales ）
      - 先驗框匹配的原則
        先驗框匹配的目的、
        爲了訓練。在訓練過程中，首先要確定訓練圖片中的ground truth（真實目標）與哪個先驗框來進行匹配，與之匹配的先驗框所對應的邊界框將負責預測它。
        
        SSD匹配原則
        1、對於圖片中每個ground truth，找到與其IOU最大的先驗框，該先驗框與其匹配，這樣，可以保證每個ground truth一定與某個先驗框匹配。（一個圖片中ground truth是非常少的，而先驗框卻很多，如果僅按這一個原則匹配，很多先驗框會是負樣本（匹配不上的）造成正負樣本極其不平衡，所以有了下一個原則）
        
        2、對於剩餘的未匹配的先驗框，若與某個ground truth的 IOU大於某個閾值（一般是0.5），那麼該先驗框也與這個ground truth進行匹配。
  - 從特徵融合的角度來提升準確度解決小目標檢測的問題（DSSD、FSSD）
  - DSSD：DeconvolutionalSingleShotDetector
    - 簡介
      - 基礎信息: cvpr2017 二作就是SSD的一作Wei Liu
      - 主要解決問題：SSD對小目標不夠魯棒（SSD雖然採用了多層feature map來生成bbox，淺層的feature map對小目標的檢測可以起到一定的作用，但是淺層的feature map的表徵能力不夠強（因爲層數淺，可能不能提取到語義特徵））
      - 主要貢獻: 在常用的目標檢測算法中加入上下文信息（特徵融合）。即（基於CNN的目標檢測算法基本都是利用一層的信息（feature map），比如YOLO，Faster RCNN等。還有利用多層的feature map 來進行預測的，比如ssd算法。那麼各層之間的信息的結合並沒有充分的利用。）
    - 網絡結構
      - 基礎網絡是Residual-101與SSD （即用resnet 101 替代了原來的vggnet，因爲更深的網絡具有更強的表徵能力）
      - prediction Moudule（該模塊的消融實驗結果表明變體c結果最好）（注意：下圖中的cls 與 loc 只是分別畫出，但其仍然都是基於迴歸的，只是loss不同）
      - Deconvolution module(中間的Eltw Product可以是求和也可以是乘積，實驗顯示爲乘積時效果更好)（該模塊中的Deconv是爲了替代bilinear upsampling）
    - 總結
      - 提高淺層的表徵能力，是可以提高類似檢測器對小目標的檢測能力
  - FSSD：Feature Fusion Single Shot Multibox Detector
    - 簡介
      - 北航
      - 主要貢獻：提出一個特徵融合模塊（Feature Fusion Module）。其中：方式c是FPN的方式，方式d是SSD中採用的方式， e是本文采用的融合方式，就是把網絡中某些feature調整爲同一szie再 contact，得到一個像素層，以此層爲base layer來生成pyramid feature map，作者稱之爲Feature Fusion Module。該方式與FPN相比，只需要融合一次，較爲簡單，在融合時方式e採用的時concat，標準的fpn採用的時sum
    - 網絡結構
      - 注：這裏concat之後之所以是512是因爲作者是從三個裏面選擇了兩個feature map進行融合。在生成pyramid feature map 時，在fusion feature map接了個33卷積後作爲第一層的。沒有直接將fusion feature map作爲第一層（實驗之後選擇的）
  - RefineDet：Single-Shot Reﬁnement Neural Network for Object Detection
    - 簡介
      - cvpr2018
      - two stage（生成候選框+確定目標的位置與類別）與one stage（直接回歸）融合，（最後論文還是定位到one-stage）
      - SSD、FPN（爲了特徵融合）、RPN（two stage的體現，爲了提高object detection位置的準確性）的結合
      - 模型主要包含兩大模塊, 分別是anchor精化模塊和物體檢測模塊. 網絡採用了類似FPN的思想, 不僅提升了精度, 同時還在速度方面取得了與one-stage方案相媲美的表現
      - 主要特點是：先對anchor進行一次精細化（提取出屬於前景的ancho，並調整其位置與尺寸），之後在基於精細化後的anchor進行物體檢測
    - 網絡結構
      - 該網絡與faster-rcnn有類似之處，
        ARM（anchor refinement moudle）類似與RPN，其起到的作用是對feature map上生成的anchor的位置和尺寸的微調，以及前景和背景的判斷，之後將背景過濾掉，不傳入ODM（object detection moudle）（但是網上覆現的源碼並沒有將背景濾掉，可能是因爲要爲anchor設置索引並且要存儲前景信息的索引，還要映射回來麻煩？）
        
        ODM相當於SSD的操作
        
        TCB（Transfer Connection Block），用於鏈接ARM和ODM，並且可以構成類似FPN的結構，實現特徵的融合
部分內容來源網絡，如有侵權，請聯繫刪除