論文閱讀筆記《Meta R-CNN : Towards General Solver for Instance-level Low-shot Learning》

核心思想

  本文基於Faster/Mask R-CNN提出一種小樣本目標檢測/分割網絡(Meta R-CNN)。文章保留了Faster/Mask R-CNN兩階段式的結構,整體網絡結構如下圖所示
在這裏插入圖片描述
  首先,查詢集圖片經過特徵提取網絡和RPN網絡(與Faster/Mask R-CNN中相同)得到感興趣區域的特徵圖ziz_i。然後支持集圖像和對應的真實標籤圖經過預測器重建模網絡(Predictor-head Remodeling Network,PRN,注意與RPN相區分)得到每個類別對應的類別注意力向量(class-attentive vectors),PRN網絡的主體部分與Faster/Mask R-CNN的特徵提取網絡結構相同且權重共享,得到對應特徵圖後,通過逐元素Sigmoid函數得到對應的注意力向量vcv_c. 最後將RPN網絡輸出的感興趣區域特徵圖ziz_i和PRN網絡輸出的注意力向量vcv_c通過逐通道相乘的方式進行融合,最後再利用Faster/Mask R-CNN中預測頭得到對應個檢測圖或分割圖.

實現過程

網絡結構

  基本與Faster/Mask R-CNN保持相同

損失函數

  本文的目標函數如下
在這裏插入圖片描述
前三項是與Faster/Mask R-CNN保持相同, 最後一項表示元損失函數,利用交叉熵損失函數來監督類別注意力向量和物體對應的類別保持一致.

創新點

  • 設計了PRN模塊,將支持集各類別特徵信息融入到Faster/Mask R-CNN,並利用元損失函數進行監督

算法評價

  目前的小樣本目標檢測算法看起來都是大同小異的,無論是採用單階段形式還是兩階段形式,都是在原有網絡的基礎上,通過某種方式將支持集圖像的特徵信息融合進去,然後依賴原有網絡實現目標的定位和分類工作.並沒有算法專門針對小樣本目標檢測問題提出有突破性的,有創新性的算法,我覺得尤其是在定位階段,基本上都採用了常見目標檢測算法的方式.

如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆號“深視”。在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章