【論文筆記】Scalable Object Detection using Deep Neural Networks

Paper: Erhan, D., Szegedy, C., Toshev, A., & Anguelov, D. (2014). Scalable Object Detection using Deep Neural Networks. CVPR.

Goal

    將基於DNN 的物體檢測方法擴展到大規模數據集上。

Contribution

  • 將物體檢測問題定義爲輸出爲多個bounding box 的迴歸問題。每個bounding box 同時輸出座標和置信度,使得模型更加緊湊和高效。
  • 利用DNN 同時學習數據的表示和bounding box 檢測器。
  • 在無類別監督的條件下訓練box 檢測器,使得該方法的計算複雜度幾乎不受物體類別的影響,因此適合於大規模物體檢測問題。該方法還可以推廣到未知的類別。

DPM 的問題

  • Sliding windows 需要在多個尺度上進行窮盡搜索,時間代價高。Branch-and-bound [1]策略避免了這個問題。
  • 檢測時間和類別數目成線性關係,不利於大規模檢測問題。使用低維共享的基[2] 和哈希方法[3] 可以解決這個問題。
  • 另一個解決將檢測擴展到大規模類別的思路是藉助分割來解決。首先進行自下而上的類別無關的分割[4],然後利用由上至下的推理來對分割得到的區域進行打分[5,6,7]。在對分割塊進行判斷之前,還可以先判斷每個區塊是否包含一個物體,然後再判斷類別 [8] 。

Method

作者採用“定位+識別”兩步的方法。即先用DNN 迴歸模型定位出若干可能的bounding box(此時並不知道每個box 的label,置信度只表明該box 包含物體的可能性大小),然後利用DNN 分類器對每個box 進行識別。

  • DNN 迴歸模型:

    • Model:將DNN 輸出層改爲迴歸。輸出爲包含K個bounding box 的座標lkR4(左上和右下座標)和這K個box 對應的置信度ckR(表明該box 包含物體的可能性大小)。
    • Loss: min{預bbox和真實bbox的匹配誤差(平方誤差) - 預測bbox 的置信度(條件熵)} 
      其中

    • Optimization:BP
    • 訓練細節:提出Prior Matching 的概念,即將先驗知識整合到匹配過程中。具體來說,就是對訓練樣本的真實bbox 進行聚類,得到物體的幾個典型位置,利用他們來輔助匹配。
  • 優點:如果要DNN 迴歸模型對每個類別輸出K個bounding box,這會導致輸出節點數隨類別數線性增加,因此scalability很差。而且由於有的類別可用於訓練的樣本數很少,因此很可能導致對模型的訓練不充分。使用“定位+識別”的方式可以很好的避免了這個問題。

Experiment

作者將方法命名爲DeepMultiBox

  • VOC 2007
    使用VOC 2012 進行訓練,在VOC 2007 上測試,mAP=0.29.

  • ILSVRC 2012
    測試ILSVRC 2012 的“Classification with localization" 任務。結果如下:

    就檢測率而言,DeepMultiBox 要略微差於ILSVRC 2012 上的Localization 任務的冠軍One-box-per-class。但和One-box-per-class 比較,DeepMultiBox 有幾點優勢:

    • One-box-per-class 的檢測時間隨類別數目線性增加,而DeepMultiBox 沒有這個問題。
    • DeepMultiBox 的遷移能力更好:在Imagenet 訓練的模型可以在VOC 上取得很好的檢測性能,如下面右圖所示。
    • One-box-per-class 無法推廣到多物體的檢測問題中(i.e. detection 任務),而DeepMultiBox 可以很自然的推廣到多物體檢測任務。下面左圖反映了這個問題。

Comment

  • 作者採用“定位+識別”的方法實現了檢測時間與類別無關的算法(~1 sec. per image)。進一步提升可以研究如何將定位和識別整合到統一的模型框架中。
  • 從ILSVRC 2012 上的檢測性能來看,DeepMultiBox 應該沒有OverFeat[9]好。

Reference

[1] C. H. Lampert, M. B. Blaschko, and T. Hofmann. Beyond sliding windows: Object localization by efficient subwindow search. In CVPR, 2008.
[2] H. O. Song, S. Zickler, T. Althoff, R. Girshick, M. Fritz, C. Geyer, P. Felzenszwalb, and T. Darrell. Sparselet models for efficient multiclass object detection. In ECCV. 2012. 2
[3] T. Dean, M. A. Ruzon, M. Segal, J. Shlens, S. Vijayanarasimhan, and J. Yagnik. Fast, accurate detection of 100,000 object classes on a single machine. In CVPR, 2013.
[4] C. Gu, J. J. Lim, P. Arbel´aez, and J. Malik. Recognition using regions. In CVPR, 2009.
[5] K. E. van de Sande, J. R. Uijlings, T. Gevers, and A. W. Smeulders. Segmentation as selective search for object recognition. In ICCV, 2011.
[6] I. Endres and D. Hoiem. Category independent object proposals. In ECCV. 2010.
[7] J. Carreira and C. Sminchisescu. Constrained parametric min-cuts for automatic object segmentation. In CVPR, 2010.
[8] B. Alexe, T. Deselaers, and V. Ferrari. What is an object? In CVPR. IEEE, 2010. [9] Sermanet, P., & Eigen, D. OverFeat : Integrated Recognition , Localization and Detection using Convolutional Networks. arXiv, 2013.


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章