目標檢測指的是在一張圖像中能夠檢測出物體所在的區域並且給出物體類別概率,其核心可以分爲定位與識別兩大模塊。定位指的是我們在目標圖像中鎖定物體所在的區域,然後送入分類網絡完成物體的識別。
圖像定位常用方法具體介紹如下:
滑窗法—sliding window
滑窗法是指用不同大小的窗口在整個圖像上進行滑動,然後對每個窗口區域進行檢測,複雜度極大,效率低下,此外還必須考慮到高寬比例不一致的情況,搜索變得更爲複雜!
候選區域—Region Proposal
選擇搜索(Selective Search)
主要觀點:圖像中物體可能存在的區域應該是有某些相似性或者連續性區域的。因此,選擇搜索基於上面這一想法採用子區域合併的方法進行提取bounding boxes候選邊界框。首先,對輸入圖像進行分割算法產生許多小的子區域。其次,根據這些子區域之間相似性(相似性標準主要有顏色、紋理、大小等等)進行區域合併,不斷的進行區域迭代合併。每次迭代過程中對這些合併的子區域做bounding boxes(外切矩形),這些子區域外切矩形就是通常所說的候選框。
除選擇搜索外,還有以下生成區域的方法:objectness;category-independen object proposals;constrained parametric min-cuts(CPMC);multi-scale combinatorial grouping
Ciresan
NMS
NMS即non maximum suppression即非極大值抑制,經常用在目標檢測當中,用來過濾掉那些局部的非極大值。一般是通過IOU來進行過濾。其中IOU爲bounding box 與 ground truth 的重疊度,即交集與並集的比值。
遷移學習
遷移學習一般指的是有監督的預訓練。就是把一個任務訓練好的參數,拿到另外一個任務,作爲神經網絡的初始參數值,這樣相比於你直接採用隨機初始化的方法,精度可以有很大的提高。
常用場景:圖片分類標註好的訓練數據非常多,但是物體檢測的標註數據卻很少,如何用少量的標註數據,訓練高質量的模型,比如我們先對imagenet圖片數據集先進行網絡的圖片分類訓練。這個數據庫有大量的標註數據。