目標檢測綜述20年(1999~2019)

參考:《Object Detection in 20 Years: A Survey》

鏈接:https://arxiv.org/abs/1905.05055?context=cs

  • 對錯誤檢測的微調

模型的偏差:準確度

模型方差:擬合度

弱分類器偏差高,方差小

強分類器偏差低,方差大

Boosting:多個弱分類器串聯,降低偏差

Bagging:多個強分類器並聯,降低方差

 

  • 可利用特徵信息

上下文信息(對象間信息、目標鄰域信息、空間位置等信息、局部位置)、紋理特徵、邊緣特徵

 

  • 存在難點&挑戰

(1)觀測:觀測點和光線變化

(2)目標:尺度、姿態、形變 、遮擋、外觀不一

(3)背景:雜亂、background clutter, occlusions, changes in appearance,

(5)圖像質量:模糊、分辨率低、噪聲

 

  • 目標檢測算法發展歷程的兩個圖

 

 

1.傳統方法:

特點:(handcrafted features)

1.Viola Jones Detectors

論文:

Rapid object detection using a boosted cascade of simple features, 2001

Robust real-time face detection, 2004

人臉檢測

Sliding windows

1).integral image

2).feature selection

3).detection cascades

 

2.HOG Detector

論文:

Histograms of oriented gradients for human detection,2005

行人檢測

1)scale-invariant feature transform,尺度不變的特徵變換

2)shape contexts ,形狀上下文

 

3.Deformable Part-based Model (DPM)

論文:

Object detection with discriminatively trained part-based models,2010

VOC07,08,09,通用目標檢測

1)as an extension of the HOG detector

2)目標部分模型

3)“hard negative mining”, “bounding box regression”, and “context priming”

 

4.An HOG-LBP Human Detector with Partial Occlusion Handling

論文:

An HOG-LBP Human Detector with Partial Occlusion Handling

 

 

2.基於卷積神經網絡的兩階段檢測

特點:神經網絡,數據驅動的特徵提取,GPU加速

1.R-CNN

論文:

Rich feature hierarchies for accurate object detection and semantic segmentation,2014

Region-based convolutional networks for accurate object detection and segmentation,2015

目標檢測

1)selective search

2)卷積網絡

3)線性SVM

4)檢測-分類,固定尺寸輸入分類網絡

5)14s 一張圖 with GPU

 

2.SPPnet

論文:

Spatial pyramid pooling in deep convolutional networks for visual recognition,2015

目標檢測

1)一次計算特徵圖,避免重複計算卷積特徵

2)生成固定長度特徵向量

3)比R-CNN快20倍

4)仍然是多階段

5)微調全連接層

 

3.fast r-cnn

論文:

Fast r-cnn,2015

目標檢測

1)檢測與迴歸在同一網絡下進行

2)比R-CNN快200倍

3)集成R-CNN和SPPnet的優勢

4)Proposal成爲瓶頸

 

4.ZF-Net

論文:

Visualizing and understanding convolutional networks,2014

神經網絡可視化

 

 

5.Faster r-cnn(https://github.com/dBeker/Faster-RCNN-TensorFlow-Python3.5)

論文:

Faster r-cnn: Towards real-time object detection with region proposal networks,2015

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,PAMI,2017

目標檢測

1)RPN,region proposal networks

2)proposal detection,feature extraction, bounding-box regression集成在統一的端到端學習框架

3)仍然存在計算冗餘

 

6.FPN

論文:

Feature pyramid networks for object detection,2017

目標檢測

1)基於Faster RCNN

2)橫向連接,在各尺度裏建立更高層次的語義特徵

 

7.RFCN

論文:

R-fcn: Object detection via region-based fully convolutional networks,2016

 

 

8.Light head RCNN

論文:

Light-head r-cnn: In defense of two-stage object,2017

 

3.基於卷積神經網絡的一階段檢測

特點:沒有region proposal,但依然有anchor

 

1.You Only Look Once (YOLO)

論文:

You only look once: Unified, real-time object detection,2016

YOLO9000: better, faster, stronger,2017

Yolov3: An incremental improvement,2018

(45fps)

1)預先劃定anchor,對每個anchor區域預測目標可能性

2)圖片輸入,全局預測,時間快

3)訓練正負樣本不平衡

4)由於全局特徵預測,對負樣本抑制較好

5)定位精度,小目標(後兩個版本改進方向)

 

2.Single Shot MultiBox Detector (SSD)

論文:

Ssd: Single shot multibox detector,2016

fast version:59fps

1)multi-resolution detection 跨層連接

2)multi-reference detection 預先定義多種尺度和尺寸的boxes

3)提高對小目標檢測的性能

4)在各個網絡層進行多尺度檢測

5)各層網絡特徵沒有有效結合

 

論文:

Dssd: Deconvolutional single shot detector,2017

1)對多層網絡特徵利用Deconvolution進行特徵融合

 

3.RetinaNet

論文:

Focal Loss for Dense Object Detection,2018

1)改進交叉熵損失函數:focal loss,解決樣本不平衡問題

 

 

4.數據集

1.Pascal VOC,2005~2012

http://host.robots.ox.ac.uk/pascal/VOC/

圖像分類,目標檢測,語義分割,行爲檢測

 

2.ILSVRC 2010~2017

http://image-net.org/challenges/LSVRC/

ImageNet Large Scale Visual Recognition Challenge

 

3.MS-COCO

http://cocodataset.org/

Closer to those of the real world.

 

4.Open Images

 https://storage.googleapis.com/openimages/web/index.html

At an unprecedented scale.

 

 

1.目標檢測技術路線

1.組件,形狀和邊緣

1)距離變換

2)匹配

3)edgelet特徵

缺點:更復雜的檢測場景下效果不好

 

2.基於機器學習

1)外觀的統計模型(1998):從數據中學習外觀的整體描述,eg:特徵臉

2)小波特徵表徵(1998-2005):圖像像素轉爲小波係數,高效計算,eg:Haar wavelet

3)基於梯度表徵(2005-2012)

 

3.基於卷積神經網絡

回溯到1990s,LeCun

 

2.多尺度檢測技術路線

(different sizes and different aspect ratios)

multiple historical periods:

1)“feature pyramids and sliding windows (before 2014)”,  縮放image

2)“detection with object proposals (2010-2015)”,  proposals

3)“deep regression (2013-2016)”,    yolo

4)“multi-reference detection (after 2015)”, 多anchor

5)“multi-resolution detection (after 2016)”, 多層連結

 

3.Bounding Box Regression技術路線

1.Without BB regression (~2008)

Build very dense pyramid and slide the detector densely on each location.

 

2.BB to BB (2008-2013)

Yields noticeable improvements of the detection under PASCAL criteria.

 

3.Features to BB (2013~)

BB no longer serves as an individual post-processing block but has been integrated with the detector and trained in an end-to-end fashion.

Directly based on CNN features.

 

4.上下文啓動技術路線

視覺目標存在於環境中,我們的大腦利用物體和環境之間的聯繫來促進視覺感知和認知。

1)detection with local context

加入背景信息,目標輪廓邊界,提高檢測精度。

基於深度學習的目標檢測,增加感受野

2)detection with global context

利用場景關係作爲額外信息源。First: 利用大圖像,second :rnn

3)context interactives(上下文互動)

通過視覺元素傳達信息

不同目標的關係,目標與場景的關係。

 

5. Non-Maximum Suppression技術路線

後處理步驟:

1)Greedy selection

最高的分數,nms閾值一般0.5

2)BB aggregation

多個框通過一定原則聚合,如加權

3)Learning to NMS

對密集目標和部分遮擋的檢測效果

 

6.難負樣本挖掘技術發展(Hard Negative Mining)

 

對象檢測器的訓練本質上是不平衡的數據學習問題。

1)Bootstrap

逐步添加負樣本,減少訓練計算

2)HNM in deep learning based detectors

正負樣本權重無法完全解決不平衡數據學習問題

3)New loss functions

Eg. Focal loss

 

 

檢測加速方法

1.speed up of detection pipeline

2.speed up of detection engine

3.speed up of numerical computation

 

1)特徵共享

設置cell size,分辨率限制

2)尺度計算

直接縮放特徵(eg.積分圖)

3)分類器加速

Prefer using linear classifiers than nonlinear.

4)串級檢測

5)網絡修剪和量化

6)輕量網絡設計:更少通道、更多層數,factorizing convolutions,group convolution,depth-wise separable convolution,bottle-neck design,neural architecture search

卷積核分解,減少通道,1×1卷積核分離卷積,通道分組卷積,跨層連接(Bottle-neck Design)

Neural Architecture Search:自動設計網絡結構,函數集擬合。

積分圖加速、矢量化、降秩近似(eg.SVD)。

 

目標檢測最新發展:

1.更好的引擎(網絡結構)

2.更好的特徵

a.不變性(尺度不變,光照不變尺度不變,光照不變,視角不變

b.等價性(相同的類別,特徵等價、映射不變)

 

3.學習具有大型感受野的高分辨率特徵

具有較大感知字段的網絡能夠捕獲更大規模的上下文信息,而具有較小感知字段的網絡可以更多地關注本地細節。

Eg.3×3跨步2跟5×5有相同的感受野。

 

 Beyond sliding window

  1. 子區域搜索(G-CNN)
  2. 關鍵點定位(人臉關鍵點,姿態估計,Cornernet)

 

  Improvements of Localization

  1. Bounding box refinement
  2. Designing new loss functions for accurate localization 

Learning with Segmentation

分割提高檢測性能,但會引起額外計算

 

 旋轉和尺度變化的魯棒檢測

數據旋轉增廣、對每個旋轉訓練檢測器、rotation invariant loss functions、旋轉配準、

尺度自適應訓練:裁剪,rescale

尺度自適應檢測:(carefully define the size of anchors:無法自適應尺寸)

 

 從頭訓練

Pre-training:數據集的分佈、領域等,不一定需要預訓練。

Dense connection and batch normalization。

 

 Weakly Supervised Object Detection (WSOD)

弱監督對象檢測(WSOD)訓練僅具有圖像級註釋而不是邊界框的檢測器來解決目標檢測。

或以邊界框註釋來解決像素級註釋的分割問題

主動學習(active learning)

半監督學習(semi-supervised)

遷移學習(transfer learning)

生成對抗網絡(Generative Adversarial Network)

 

 

  • 應用

1.行人檢測

《HOG,ICF-》neural network

挑戰:小目標、hard negatives(相似背景,may caused by 低像素)、密集(dense)、遮擋(occluded)、實時性

2.人臉檢測

VJ檢測器

挑戰:類內差異、遮擋、多尺度、實時性

3.文本檢測

挑戰:不同字體語言、文本旋轉、透視變換、密集、殘缺模糊

4.交通信號及交通燈檢測

挑戰:光線變換、天氣、實時性

5.遙感目標檢測

挑戰:數據量大、遮擋(雲)、不同傳感器捕獲

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章