[討論] 深度學習Region Proposal方法

Region Proposal 方法看的比較頭大,現在在此總結一下,歡迎大家批評指正

One Stage VS Two stage

one stage two stage
直接回歸物體的類別概率和位置座標值(無region proposal),但準確度低,速度相遇two-stage快。 先由算法生成一系列作爲樣本的候選框,再通過卷積神經網絡進行樣本分類。
直接通過主幹網絡給出類別和位置信息,沒有使用RPN網路。這樣的算法速度更快,但是精度相對Two-stage目標檢測網絡了略低。 對於Two-stage的目標檢測網絡,主要通過一個卷積神經網絡來完成目標檢測過程,其提取的是CNN卷積特徵,在訓練網絡時,其主要訓練兩個部分,第一步是訓練RPN網絡,第二步是訓練目標區域檢測的網絡。網絡的準確度高、速度相對One-stage慢。
目前常用的典型的One-stage目標檢測網絡 YOLOv1、YOLOv2、YOLOv3 SSD、DSSD等 Retina-Net等 R.Girshick et al等人在2014年提出的R-CNN到Faster R-CNN網絡。

RCNN

出自論文 : Rich feature hierarchies for accurate object detection and semantic segmentation 鏈接

侯選框的選擇
  • 選取了Selective Search的方式對每張圖提取了約2000個大小不一候選區域,爲了使不同尺寸的候選區域可以餵給固定輸入尺寸的網絡提取特徵,對這些候選區域都縮放到227,爲避免縮放操作對識別檢測精度的影響,作者對縮放過程做了優化,比如對候選區域邊界擴展、warp等,並選取最好的縮放方式。

  • Selective Search for Object Recognition link

  • Selective Search 算法:

    1. 使用 Felzenszwalb and Huttenlocher【一種基於灰度值計算相臨像素的方法】提出的方法得到初始分割區域R={r1,r2,…,rn};
    2. 初始化相似度集合S=∅;
    3. 計算兩兩相鄰區域之間的相似度,將其添加到相似度集合S中;
    4. 從集合S中找出,相似度最大的兩個區域 ri 和rj,將其合併成爲一個區域 rt,從集合中刪去原先與ri和rj相鄰區域之間計算的相似度,計算rt與其相鄰區域(與ri或rj相鄰的區域)的相似度,將其結果加入到相似度集合S中。同時將新區域 rt 添加到區域集合R中;
    5. 獲取每個區域的Bounding Boxes L,輸出物體位置的可能結果L。

    在每次迭代中,形成更大的區域並將其添加到區域提議列表中。以自下而上的方式創建從較小的細分segments到較大細分segments的區域提案,如下圖最左側。
    在這裏插入圖片描述

  • 在考慮相似性的部分作者也考慮了場景/光照/顏色/紋理/尺度/形狀 等尺度綜合衡量圖片之間的相似程度等 來計算相關性。 還是手工產生的特徵。

在這裏插入圖片描述

完整的RCNN

RCNN:
1):利用selective-search方法提取2000個自下而上的region proposal;
2):針對每一個region proposal我們用一個大的CNN網絡計算特徵;
3):利用線性SVMs分類器對每個region proposal進行分類;
4):進行迴歸分析調整region proposal區域。

RCNN 缺點:速度慢,佔用太多磁盤資源等,但也正是這些痛點
參考:
【理解Selective Search 】!!
【Selective Search for Object Recognition 論文原文】
【圖像處理—基於圖的圖像分割(Graph-Based Image Segmentation】
【R-CNN論文詳解 】!!!

Fast-RCNN:

ROI 的取法應該是一樣的 Selective Search

  1. 讀取整個圖片和一個ROI(Regions of Interest,也就是一系列劃分的bounding box)集合作爲輸入);
  2. 然後convnet從整個圖片中提取特徵,得到feature map;
  3. 對每一個ROI區域,pooling層從feature map中提取一個固定大小的feature factor;
  4. feature factor被送往FC(fully-connected layer),被映射到兩個部分,一部分是評估k個目標類加上catch-all"背景"類的softmax probability;另一部分產生bbox regressor,即針對k個目標對象的每一個4值真值數量(4 real-valued numbers),每個4值編碼集合(set of 4 values)K類目標對象之一的bounding-box位置。
    在這裏插入圖片描述參考:
    【Fast RCNN論文的概括理解】
    【論文原文】

Faster-RCNN 之 RPN:

【TO - DO】RPN 網絡設計!

【Faster R-CNN論文筆記——FR !!!非常棒的總結】
Faster R-CNN這篇論文解決了這個系統中的三個問題:

  1. 設計區域生成網絡(RPN);
  2. 訓練區域生成網絡;
  3. 讓區域生成網絡和Fast RCNN網絡共享特徵提取網絡。

Faster-R-CNN算法由兩大模塊組成:

  • .PRN候選框提取模塊;
  • .Fast R-CNN檢測模塊。

R-CNN、Fast R-CNN、Faster R-CNN三者關係

在這裏插入圖片描述在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章