【論文筆記】Scalable Object Detection using Deep Neural Networks

原創

2018-08-31 09:42

Paper: Erhan, D., Szegedy, C., Toshev, A., & Anguelov, D. (2014). Scalable Object Detection using Deep Neural Networks. CVPR.

Goal

將基於DNN 的物體檢測方法擴展到大規模數據集上。

Contribution

將物體檢測問題定義爲輸出爲多個bounding box 的迴歸問題。每個bounding box 同時輸出座標和置信度，使得模型更加緊湊和高效。
利用DNN 同時學習數據的表示和bounding box 檢測器。
在無類別監督的條件下訓練box 檢測器，使得該方法的計算複雜度幾乎不受物體類別的影響，因此適合於大規模物體檢測問題。該方法還可以推廣到未知的類別。

DPM 的問題：

Sliding windows 需要在多個尺度上進行窮盡搜索，時間代價高。Branch-and-bound [1]策略避免了這個問題。
檢測時間和類別數目成線性關係，不利於大規模檢測問題。使用低維共享的基[2] 和哈希方法[3] 可以解決這個問題。
另一個解決將檢測擴展到大規模類別的思路是藉助分割來解決。首先進行自下而上的類別無關的分割[4]，然後利用由上至下的推理來對分割得到的區域進行打分[5,6,7]。在對分割塊進行判斷之前，還可以先判斷每個區塊是否包含一個物體，然後再判斷類別 [8] 。

Method

作者採用“定位+識別”兩步的方法。即先用DNN 迴歸模型定位出若干可能的bounding box（此時並不知道每個box 的label，置信度只表明該box 包含物體的可能性大小），然後利用DNN 分類器對每個box 進行識別。

DNN 迴歸模型：
- Model：將DNN 輸出層改爲迴歸。輸出爲包含K個bounding box 的座標lk∈R4（左上和右下座標）和這K個box 對應的置信度ck∈R（表明該box 包含物體的可能性大小）。
- Loss: min{預bbox和真實bbox的匹配誤差（平方誤差） - 預測bbox 的置信度（條件熵）} ，
  其中
- Optimization：BP
- 訓練細節：提出Prior Matching 的概念，即將先驗知識整合到匹配過程中。具體來說，就是對訓練樣本的真實bbox 進行聚類，得到物體的幾個典型位置，利用他們來輔助匹配。
優點：如果要DNN 迴歸模型對每個類別輸出K個bounding box，這會導致輸出節點數隨類別數線性增加，因此scalability很差。而且由於有的類別可用於訓練的樣本數很少，因此很可能導致對模型的訓練不充分。使用“定位+識別”的方式可以很好的避免了這個問題。

Experiment

作者將方法命名爲DeepMultiBox。

VOC 2007
使用VOC 2012 進行訓練，在VOC 2007 上測試，mAP=0.29.
ILSVRC 2012
測試ILSVRC 2012 的“Classification with localization" 任務。結果如下：

就檢測率而言，DeepMultiBox 要略微差於ILSVRC 2012 上的Localization 任務的冠軍One-box-per-class。但和One-box-per-class 比較，DeepMultiBox 有幾點優勢：
- One-box-per-class 的檢測時間隨類別數目線性增加，而DeepMultiBox 沒有這個問題。
- DeepMultiBox 的遷移能力更好：在Imagenet 訓練的模型可以在VOC 上取得很好的檢測性能，如下面右圖所示。
- One-box-per-class 無法推廣到多物體的檢測問題中（i.e. detection 任務），而DeepMultiBox 可以很自然的推廣到多物體檢測任務。下面左圖反映了這個問題。

Comment

作者採用“定位+識別”的方法實現了檢測時間與類別無關的算法（~1 sec. per image)。進一步提升可以研究如何將定位和識別整合到統一的模型框架中。
從ILSVRC 2012 上的檢測性能來看，DeepMultiBox 應該沒有OverFeat[9]好。

Reference

[1] C. H. Lampert, M. B. Blaschko, and T. Hofmann. Beyond sliding windows: Object localization by efficient subwindow search. In CVPR, 2008.
[2] H. O. Song, S. Zickler, T. Althoff, R. Girshick, M. Fritz, C. Geyer, P. Felzenszwalb, and T. Darrell. Sparselet models for efficient multiclass object detection. In ECCV. 2012. 2
[3] T. Dean, M. A. Ruzon, M. Segal, J. Shlens, S. Vijayanarasimhan, and J. Yagnik. Fast, accurate detection of 100,000 object classes on a single machine. In CVPR, 2013.
[4] C. Gu, J. J. Lim, P. Arbel´aez, and J. Malik. Recognition using regions. In CVPR, 2009.
[5] K. E. van de Sande, J. R. Uijlings, T. Gevers, and A. W. Smeulders. Segmentation as selective search for object recognition. In ICCV, 2011.
[6] I. Endres and D. Hoiem. Category independent object proposals. In ECCV. 2010.
[7] J. Carreira and C. Sminchisescu. Constrained parametric min-cuts for automatic object segmentation. In CVPR, 2010.
[8] B. Alexe, T. Deselaers, and V. Ferrari. What is an object? In CVPR. IEEE, 2010. [9] Sermanet, P., & Eigen, D. OverFeat : Integrated Recognition , Localization and Detection using Convolutional Networks. arXiv, 2013.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【論文筆記】Scalable Object Detection using Deep Neural Networks

Goal

Contribution

DPM 的問題：

Method

Experiment

Comment

Reference

Nginx R31 doc-13-Limiting Access to Proxied HTTP Resources 訪問限流

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

python包：pandas

Python數據分析與挖掘實戰（5章）

一、什麼是Docker

C++文件/流

二、Docker 組件

揹包九講一 01揹包

中外程序員到底有啥區別？

今天！通義靈碼在北京、成都、杭州三城開講啦

【論文筆記】Mid-level Visual Element Discovery as Discriminative Mode Seeking

【論文筆記】Blocks that Shout：Distinctive Parts for Scene Classification

【論文筆記】Scalable Object Detection using Deep Neural Networks

【論文筆記】Unsupervised Discovery of Mid-Level Discriminative Patches

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結