論文名稱:《 Relation Networks for Object Detection 》
論文下載:https://arxiv.org/pdf/1711.11575.pdf
論文代碼:https://github.com/msracver/Relation-Networks-for-Object-Detection
建模物體間的關係,有利於目標識別任務。本文提出了一種目標關係模塊(Object Relation Module),它同時處理一組目標,對目標之間的外觀特徵關係和位置關係進行建模。該模塊的輸入輸出維度相同(in-place),不需要額外的監督,因此很容易嵌入到已有網絡中。實驗表明,在目標檢測網絡的目標識別和去重兩個階段添加目標關係模塊,可以提高檢測精度,並實現完全端到端的目標檢測器。
本文亮點:
- 將《Attention Is All You Need》中的 Attention 機制應用到目標檢測領域,設計出的目標關係模塊很容易的集成到任意網絡中。
- 用目標關係模塊代替傳統NMS算法進行去重,檢測網絡完全可以端到端訓練。
作者設計的 Attention 權重由兩部分組成,外觀特徵關係權重和空間關係權重。作者將目標關係模塊應用到區域特徵提取後的 FC 層,使目標特徵包含物體間的關係信息,增強目標識別能力。作者還將目標關係模塊應用到去重階段,代替傳統的 NMS 算法,提高網絡識別精度,同時可以使網絡進行端到端的訓練。
1、實例檢測階段
目標檢測網絡分類迴歸階段流程 |
加入目標關係 模塊後的流程 |
網絡的檢測部分,由 2fc 變爲了 2fc+RM(Relation module),網絡結構如下圖(a):
2、去重階段
作者將去重看作一個二分類問題,如上圖(b):在分類和邊界框迴歸分支,網絡輸出了分類得分 s0 和預測的邊界框 bbox。作者先將 N 個物體的得分從大到小排序,每一個物體排序的序號(rank)∈[1,N]。與 fG 的處理方式類似,作者將 rank 值嵌入到一個高維空間,維度大小爲128。然後將 rank 特徵,和 2fc+RM 層之後的1024維的外觀特徵分別通過矩陣 WfR 和 Wf 投影到128維,再按元素相加。將該特徵和bbox特徵輸入到關係模塊中,通過矩陣 Ws 對輸出的關係特徵線性分類,再使用 Sigmoid 函數得到二分類得分 s1(1表示是正確的bbox,0表示多餘的bbox)。最後用 s0*s1 表示最終的分類得分。去重階段正負樣本選取:對於每一個 ground truth box,選取邊界框迴歸階段 IoU ≥η 的框中得分最高的爲正樣本,其他爲負樣本。