資料參考:
1、https://blog.csdn.net/qq_38906523/article/details/79971817
2、原文:https://arxiv.org/abs/1905.05055 201905的pami
3、https://blog.csdn.net/u013049912/article/details/83275319
4、《Object Detection in 20 Years: A Survey》翻譯版
5、https://blog.csdn.net/Julialove102123/article/details/92838070
6、https://blog.csdn.net/weixin_42662134/article/details/90479543
7、密歇根大學40頁《20年目標檢測綜述》最新論文,帶你全面瞭解目標檢測方法
8、論文筆記-2019-Object Detection in 20 Years: A Survey
目錄
abstract:
作爲計算機視覺中最基本和最具挑戰性的問題之一,目標檢測近年來受到了極大的關注。它在過去二十年的發展可以看作是計算機視覺歷史的縮影。如果我們將當今的物體檢測視爲在深度學習的力量下的技術美學,那麼將時光倒流到20年前,我們將見證冷武器時代的智慧。鑑於對象檢測技術的發展,本文跨越了四分之一個世紀的時間(從1990年代到2019年),對400多篇論文進行了廣泛的評論。本文涵蓋了許多主題,包括歷史上的里程碑檢測器,檢測數據集,度量,檢測系統的基本構建塊,加速技術以及最新的檢測技術水平。本文還回顧了一些重要的檢測應用程序,例如行人檢測,面部檢測,文本檢測等,並對它們的挑戰以及近年來的技術改進進行了深入分析。
- milestone detectors,detection datasets, metrics, detection system blocks, speed up, state-of-art method
- pedestrain detection, face detection, text detection
1 Introduction
對象檢測是一項重要的計算機視覺任務,用於檢測數字圖像中特定類別的視覺對象(例如人,動物或汽車)的實例。目標檢測的目的是開發能夠提供計算機視覺應用程序所需的最基本信息之一的計算模型和技術:what objects are where?
作爲計算機視覺的基本問題之一,目標檢測構成了許多其他計算機視覺任務的基礎,例如實例分割[1-4],圖像標題[5-7],目標跟蹤[8]等。從應用的角度來看,物體檢測可分爲兩個研究主題“通用物體檢測”和“檢測應用”,前者旨在探索在統一框架下對不同類型物體進行檢測的方法,以仿真人類的視覺和認知,後一種指的是特定應用場景下的檢測,例如行人檢測,面部檢測,文本檢測等。近年來,深度學習技術的飛速發展[9]帶來了新的血液進入物體檢測,導致卓越突破,並將其推向研究熱點,受到了前所未有的關注。現在,對象檢測已廣泛用於許多實際應用中,例如自動駕駛,機器人視覺,視頻監控等。圖1顯示了在過去的二十年中與“對象檢測”相關的出版物數量不斷增長。
- 與其他相關綜述文章不同之處在於:
2. 目標檢測的二十年
2.1.1 傳統的目標檢測
HOG是一種特徵變換,它不隨尺度變化而變化。爲了在特徵不變特性和非線性,即既要保持特徵不隨尺度變化的特性,又想要HOG在不同類別的目標上具有可區分性。歸一化會破壞掉絕對值。
- HOG的歸一化是爲了去除光照的影響
- 但是絕對值被幹掉之後,不同的目標的HOG特徵可能區分性就會減弱
- HOG是檢測窗保持不變,即輸入HOG的圖像大小是固定的,通過resize圖像來檢測多尺度目標
2.1.2 基於CNN的兩階段檢測器
RCNN->SPPNet->Fast RCNN->Faster RCNN->FPN
- RCNN:選擇性搜索候選框,resize到固定尺寸送入CNN中提取特徵,SVM進行分類和預測。
- 計算量很大,一個圖有2K個候選框都要單獨送入網絡,導致模型非常慢,GPU=1/14fps。
2.1.3 基於CNN的one-stage檢測器
2.2 目標檢測的數據集和指標
2.2.1 Metrics指標
2.3 目標檢測的技術演進
- HOG,VJ是檢測固定長寬比的目標
- 要想檢測各種長寬比的目標:方法一,混合模型, 通過訓練多個模型來檢測不同長寬比的物體;
- 方法二,採用基於exemplar-based detection,基於範例的檢測方法,爲訓練集的每個對象實例訓練單獨的模型。
- 類別太多了怎麼辦?能否存在一種統一的多尺度方法來檢測不同長寬比的目標呢?
- 下面的object proposals
- 類別太多了怎麼辦?能否存在一種統一的多尺度方法來檢測不同長寬比的目標呢?
- 下面的object proposals
2.3.3 邊界框迴歸的技術演進
2.3.4 語義提取的技術演進
5 applications
5.1 行人檢測
- 小行人:Caltech中,只有15%的行人身高<30 pixel,但是我們的應用場景中幾乎全都是<30 pixel height的數據
- 難例:與行人特徵相似的背景在我們的應用場景中經常出現
- 密集行人和遮擋問題