SSD（SingleShotDetector）論文解讀

一、相關背景

速率問題：在目標檢測的速率上明顯存在問題，此前最快的檢測模型爲Faster R-CNN（速率爲每秒鐘7幀）

二、主要貢獻

提出了第一個基於目標檢測的深度神經網絡，不需要爲迴歸框重新取樣像素或特徵，而且和之前的方法同樣精確。
在檢測速率和檢測精度上有了較大的提高。
爲了實現高精度檢測，作者對於不同尺寸的特徵圖提出了不同的預測，通過各個方面的比例調整明確分離了這些預測。

三、模型結構

作者此處把VGG-16作爲一個基礎網絡，然後對這個網絡進行添加修改，以下是添加的幾個特徵。

Multi-scalefeaturemapsfordetection：作者把卷積特徵圖作爲一層添加到了去端的基礎網絡上，這些層的尺寸逐漸減小，使得檢測的預測在多尺度下進行。
Convolutional predictors for detection：每一個添加進去的特徵圖層通過使用卷積過濾器可以產出一系列固定的檢測預測結果。對於一個尺寸爲mn且有p個通道的特徵層來說，對於預測檢測參數的基本因素是一個33*p的小核，他可以輸出一個種類的分數或是和默認框相關的偏置值。

如圖所示，作者在模型中插入了幾個特徵層（3、6、7、8、9、10、11）,來預測不同尺寸、比例以及置信度的偏置值。
Default boxes and aspect ratios ：對於以上幾個特徵層，作者把一系列默認BB框和特徵圖的單元聯繫起來。在每一個特徵圖單元，我們預測和默認框形狀相關的偏置值，以及在每一個框中預測一個類存在的分數。舉個栗子，對於一個特徵層，我們計算c個類的分數和4個最初默認框的偏置值，這樣對於一個mn的特徵圖，就會有（c+4)kmn的輸出。

對於SSD的框架：

SSD只需要輸入圖片和訓練期間每個目標的真實框。在這幾個不同尺寸的特徵圖中，我們在每一個位置用不同尺寸比例的默認框。對於每一個默認框，我們預測他的形狀大小以及所有目標種類的置信度。在訓練時，我們首先將這些默認框和真實框做匹配。例如：圖中兩個框和貓成功匹配，一個框和狗成功匹配。

loss函數：
主要包含兩部分：一是位置損失函數loc；另一個是置信度損失函數conf.
N爲匹配的默認框的數量，loc 損失是預測框（l)和真實框（g)之間的L1loss.

其中（cx,cy)是默認框的中心點，d爲默認框，w/h分別爲他的寬和高。
關於先驗框的尺寸和比例：
對於每個特徵圖中的先驗框尺寸計算公式如下：

s(min) = 0.2、s(max) = 0.9,分別表示最底層有0.2的尺度，最高層有0.9的尺度，其它層均在二者中間並均勻分佈。a®∈{1，2，3，1/2、1/3}

每個默認框的中心座標爲：|f(k)|指的是第k個特徵圖的面積。
Hard negative mining：
這三個單詞經常可以看到，它的意思是這樣的：在匹配過程結束後，大多數的先驗框其實都是負樣本（即效果不好的），但是這時候正樣本和負樣本的比例會有較爲嚴重的失衡，這時，就會選擇負樣本中得分最高的那些作爲正樣本(就是那些雖然不是很好，但也能勉強湊活的那種），從而使得正負樣本比例爲1：3.經過實驗證明，這樣使得模型有了更快地速度和更加穩定的訓練過程。
Data augmentation：
爲了讓模型對於各種輸入更加具有魯棒性，數據擴容是一個常規操作。主要包括以下幾點：
① 使用完整的原始輸入圖片
② 對原始圖片進行分塊截取，分別取和目標重合度爲0.1 、0.3、0.5、0.7、0.9的部分。
③ 對這些部分隨機取樣。

四、實驗設計

數據集： ILSVRC CLS-LOC 、PASCAL VOC、COCO、ILSVRC DET
PASCAL VOC 2007
比較對象：Fast R-CNN、Faster R-CNN、SSD比較結果：
爲了更好的理解模型各個組分的作用，作者對不同組分進行了選擇實驗：
可以看出數據擴容提高了8.8%的mAP，證明數據擴容對於提高SSD模型性能有着重要的作用。同時，更多的先驗框也更有優勢，用更多類型的先驗框形狀可以讓神經網絡的預測工作更加輕鬆。而Atrous的意思爲空洞，作者在VGG16的下取樣中採用了這種方式。對於空洞卷積，有如下解釋方式（圖源知乎）：

由上表可知：多輸出層的的結構更加有利。SSD很大的一個貢獻就是在不同的輸出層使用了不同尺寸的先驗框。

PASCAL VOC 2012
此處作者將SSD與YOLO進行比較，明顯勝過YOLO模型：
COCO
一般來說，COCO數據集裏的目標更小一點，因此對於所有層要用小一點的先驗框。

如下是部分COCO檢測結果：
爲了證明數據擴容帶來的影響，作者對不同數據集組合作了如下比較：
最後，作者對幾種方法進行了綜合比較，比較結果如下所示：