Goal
將基於DNN 的物體檢測方法擴展到大規模數據集上。
Contribution
- 將物體檢測問題定義爲輸出爲多個bounding box 的迴歸問題。每個bounding box 同時輸出座標和置信度,使得模型更加緊湊和高效。
- 利用DNN 同時學習數據的表示和bounding box 檢測器。
- 在無類別監督的條件下訓練box 檢測器,使得該方法的計算複雜度幾乎不受物體類別的影響,因此適合於大規模物體檢測問題。該方法還可以推廣到未知的類別。
DPM 的問題:
- Sliding windows 需要在多個尺度上進行窮盡搜索,時間代價高。Branch-and-bound
[1]
策略避免了這個問題。 - 檢測時間和類別數目成線性關係,不利於大規模檢測問題。使用低維共享的基
[2]
和哈希方法[3]
可以解決這個問題。 - 另一個解決將檢測擴展到大規模類別的思路是藉助分割來解決。首先進行自下而上的類別無關的分割
[4]
,然後利用由上至下的推理來對分割得到的區域進行打分[5,6,7]
。在對分割塊進行判斷之前,還可以先判斷每個區塊是否包含一個物體,然後再判斷類別[8]
。
Method
作者採用“定位+識別”兩步的方法。即先用DNN 迴歸模型定位出若干可能的bounding box(此時並不知道每個box 的label,置信度只表明該box 包含物體的可能性大小),然後利用DNN 分類器對每個box 進行識別。
-
DNN 迴歸模型:
- Model:將DNN 輸出層改爲迴歸。輸出爲包含
K
個bounding box 的座標lk∈R4(左上和右下座標)和這K
個box 對應的置信度ck∈R(表明該box 包含物體的可能性大小)。 - Loss: min{預bbox和真實bbox的匹配誤差(平方誤差) - 預測bbox 的置信度(條件熵)} ,
其中 - Optimization:BP
- 訓練細節:提出Prior Matching 的概念,即將先驗知識整合到匹配過程中。具體來說,就是對訓練樣本的真實bbox 進行聚類,得到物體的幾個典型位置,利用他們來輔助匹配。
- Model:將DNN 輸出層改爲迴歸。輸出爲包含
-
優點:如果要DNN 迴歸模型對每個類別輸出
K
個bounding box,這會導致輸出節點數隨類別數線性增加,因此scalability很差。而且由於有的類別可用於訓練的樣本數很少,因此很可能導致對模型的訓練不充分。使用“定位+識別”的方式可以很好的避免了這個問題。
Experiment
作者將方法命名爲DeepMultiBox
。
-
VOC 2007
使用VOC 2012 進行訓練,在VOC 2007 上測試,mAP=0.29. -
ILSVRC 2012
測試ILSVRC 2012 的“Classification with localization" 任務。結果如下:就檢測率而言,
DeepMultiBox
要略微差於ILSVRC 2012 上的Localization 任務的冠軍One-box-per-class
。但和One-box-per-class
比較,DeepMultiBox
有幾點優勢:One-box-per-class
的檢測時間隨類別數目線性增加,而DeepMultiBox
沒有這個問題。DeepMultiBox
的遷移能力更好:在Imagenet 訓練的模型可以在VOC 上取得很好的檢測性能,如下面右圖所示。-
One-box-per-class
無法推廣到多物體的檢測問題中(i.e. detection 任務),而DeepMultiBox
可以很自然的推廣到多物體檢測任務。下面左圖反映了這個問題。
Comment
- 作者採用“定位+識別”的方法實現了檢測時間與類別無關的算法(~1 sec. per image)。進一步提升可以研究如何將定位和識別整合到統一的模型框架中。
- 從ILSVRC 2012 上的檢測性能來看,
DeepMultiBox
應該沒有OverFeat[9]
好。
Reference
[1] C. H. Lampert, M. B. Blaschko, and T. Hofmann. Beyond sliding windows: Object localization by efficient subwindow search. In CVPR, 2008.
[2] H. O. Song, S. Zickler, T. Althoff, R. Girshick, M. Fritz, C. Geyer, P. Felzenszwalb, and T. Darrell. Sparselet models for efficient multiclass object detection. In ECCV. 2012. 2
[3] T. Dean, M. A. Ruzon, M. Segal, J. Shlens, S. Vijayanarasimhan, and J. Yagnik. Fast, accurate detection of 100,000 object classes on a single machine. In CVPR, 2013.
[4] C. Gu, J. J. Lim, P. Arbel´aez, and J. Malik. Recognition using regions. In CVPR, 2009.
[5] K. E. van de Sande, J. R. Uijlings, T. Gevers, and A. W. Smeulders. Segmentation as selective search for object recognition. In ICCV, 2011.
[6] I. Endres and D. Hoiem. Category independent object proposals. In ECCV. 2010.
[7] J. Carreira and C. Sminchisescu. Constrained parametric min-cuts for automatic object segmentation. In CVPR, 2010.
[8] B. Alexe, T. Deselaers, and V. Ferrari. What is an object? In CVPR. IEEE, 2010. [9] Sermanet, P., & Eigen, D. OverFeat : Integrated Recognition , Localization and Detection using Convolutional Networks. arXiv, 2013.