論文閱讀筆記《Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector》

核心思想

  本文提出一種用於小樣本目標檢測的算法。整個結構採用兩階段的形式,第一階段利用RPN網絡進行定位,第二階段利用檢測器進行分類。針對這兩個階段的結構,本文做了兩點改進以滿足小樣本學習的需求。首先提出一種基於注意力的RPN模塊(Attention-Based Region Proposal Network,Attention-RPN),其次是提出一種採用多重關係的檢測器(Multi-Relation Detector,MRD),最後作者還對訓練方式進行了改進,提出Two-way Contrastive Training Strategy的訓練策略。整個網絡的結構如下圖所示
在這裏插入圖片描述
  支持集圖片是帶有目標物體的特寫圖片,查詢集圖片是帶有多類物體的照片。首先利用兩個權重共享的網絡分支,分別提取支持集圖像和查詢集圖像的特徵(對於支持集圖像由於包含多種類別,因此有多個平行的特徵提取分支,分別對應每個類別的圖像)。然後對兩組特徵圖分別進行感興趣區域池化,用於尋找可能存在目標物體的區域。作者提出如果不借助任何的支持集圖像的信息,RPN模塊會漫無目的的在查詢集圖片中尋找存在物體概率大的區域,而不考慮這個物體是否是屬於支持集類別的。因此作者將支持集的信息引入RPN過程中,過濾掉背景部分和不匹配的類別,實現過程如下圖所示
在這裏插入圖片描述
  支持集特徵圖XX經過平均池化得到一個一維的特徵向量,查詢集特徵圖YY沿通道維度進行離散化,然後利用XX對應的特徵向量作爲卷積核,對YY對應的特徵圖做卷積操作,尋找到各個通道上每個像素點之間的關係,得到了帶有注意力的特徵圖GG。最後對GG進行3 * 3的卷積,並判斷是否包含物體和編輯框的迴歸(與普通的RPN過程相同),就得到查詢集圖像相應的RPN結果。對於支持集圖像,直接用真實邊界框做感性與區域池化就得到對應的結果。在得到查詢集圖片和支持集圖片對應的RPN結果後,要通過相似性度量的方式來判斷各個區域內的物體是屬於哪個類別的,本文采用三種方式並行計算查詢集圖像和支持集圖像之間的相似程度,處理過程如下
在這裏插入圖片描述
  三個分支分別是:全局關係分支(global-relation),局部關係分支(local-correlation)和圖塊關係分支(patch-relation)。顧名思義全局關係分支就是利用平均池化的方式將支持集和查詢集圖像對應的感興趣區域特徵圖轉化爲一個特徵向量,然後再計算相似性關係;而局部關係分支則是逐像素計算兩組特徵圖之間的關係;而圖塊關係分支則是一個像素對應多個像素進行相似性計算,三個分支可以互爲補充,可以獲得更好的分類性能,具體計算過程正文中並沒有介紹。
  最後,作者還提出一種Two-way Contrastive Training Strategy的訓練策略,作者認爲一個好的分類器不僅能夠識別圖中物體所屬的類別,而且能夠區分圖中物體不相關的類別。因此在訓練過程中,支持集中不僅包含查詢集中存在的正向樣本,而且還混雜有查詢集中不存在的負向樣本,讓網絡判斷查詢集中的物體是否與二者相匹配,以增強網絡的區分能力。
在這裏插入圖片描述
  此外,作者還爲小樣本目標檢測任務製作了一個專用的數據集(FSOD: A Highly-Diverse Few-Shot Object Detection Dataset)用於支持小樣本目標檢測任務的研究,共包含1000個類別,總計66000張圖片。

實現過程

網絡結構

  特徵提取網絡部分採用Faster R-CNN網絡的結構,其餘部分沒有具體介紹。

損失函數

  共包含三個部分:RPN損失LRPNL_{RPN}與Faster R-CNN採用的計算方式相同,邊界框損失LboxL_{box}與Fast R-CNN採用的計算方式相同,匹配損失LmatchingL_{matching}採用二元交叉熵損失函數。

訓練策略

  見上文關於Two-way Contrastive Training Strategy訓練策略的介紹。

創新點

  • 提出一種基於注意力的RPN模塊和多重關係檢測器,以提高定位精度和區分能力,滿足小樣本目標檢測需求
  • 提出一種Two-way Contrastive Training Strategy訓練策略,增強網絡對於其他類別物體的區分能力

算法評價

  本文整體上沿用了二階段法的目標檢測流程,先利用RPN網絡對可能存在目標物體的區進行定位,然後再對感興趣區域內的物體進行分類,分類時採用了小樣本分類任務中常用的基於度量學習的方式,並針對小樣本學習的場景做了一定的改進。藉助於本文製作的小樣本目標分類數據集和新型的訓練策略,本文提出的算法在目標檢測效果上都優於先前的算法,取得了顯著的進步。

如果大家對於深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆號“深視”。在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章