論文基於NLP的注意力機制提出了目標關係模塊，通過與其它目標的比對增強當前目標的特徵，而且還可以代替NMS進行端到端的重複結果去除，思想十分新穎，效果也不錯

來源：曉飛的算法工程筆記公衆號

論文: Relation Networks for Object Detection

論文地址：https://arxiv.org/abs/1711.11575
論文代碼：https://github.com/msracver/Relation-Networks-for-Object-Detection

Introduction

當前大多數目標檢測算法仍專注於單獨識別目標，沒有嘗試在訓練時挖掘目標之間的關係，受限於當前簡單的網絡結構，無法對無規律的目標關係進行建模。參考自然語言處理中的注意力機制，論文提出了用於目標檢測的自適應注意力機制 -- 目標關係模塊(object relation module)，學習目標間的關係來增強特徵以及去除重複結果。
檢測目標有2D空間分佈和不同的長寬比，比文本的場景要複雜些，所以論文拓展了NLP的注意力權重，分爲兩個權重：

基於目標特徵產生的權重，跟NLP權重類似。
基於目標相對幾何位置產生的權重，相對幾何位置保證平移不變性。

目標關係模塊接收可變輸入並行計算，是可微的in-place操作，可作爲基礎構建block嵌入到任意目標檢測算法中，嵌入方式如圖1所示，用於目標識別部分以及重複目標去除：

目標識別部分(instance recognition)：利用目標關係模塊，聯合所有的檢測目標來進行特徵增強，再進行後續的識別。
重複目標去除(du-plicate remova)：在識別完成後，常規的做法使用NMS進行重複目標的去除，而論文使用輕量級網關係網絡進行該做法的替換。

Object Relation Module

常規的注意力機制爲ScaledDot-Product Attention，計算爲：

給定查詢目標$q$，計算與其它目標$K$的相似度，然後softmax歸一化爲權重，最後乘以各向量的值$V$得到加權後的特徵，這3個值一般都是對目標特徵進行embedding得到的。
對於目標檢測中的相似性計算，每個目標包含幾何特徵$f_G$和外觀特徵$f_A$，給定$N$個目標${(f^n_A, f^n_G)}N_{n=1}$，可計算每個目標相對於其它目標的關係特徵(relation feature)$f_R(n)$：

關係特徵實際爲所有目標的外觀特徵的加權和，$W_V$爲線性變化，相當於將外觀特徵embedding爲公式1的值$V$。權值$w^{mn}$表明其它目標相對於當前目標的重要性，計算方法爲：

公式3實際上等同於公式1中的softmax，唯一不同的是除了外觀權值$w^{{mn}_A$，還額外使用幾何權值$w}{mn}_G$進行加權。
外觀權值$w^{mn}_A$的計算跟公式1的softmax括號內的計算一樣，具體爲：

$W_K$和$W_Q$同樣爲線性變化，分別將對比目標和當前目標的外觀特徵embedding成公式1的$K$和$Q$，embedding後的特徵維度爲$d_k$。
幾何權值$w^{mn}_G$的計算爲：

幾何特徵一般就是簡單的四維bbox，所以公式5在計算幾何權值包含兩個步驟：

將當前目標和對比目標的幾何特徵通過$\varepsilon_G$embedding成高維特徵，爲了保證平移和尺寸不變性，幾何特徵轉爲相對值$(log(\frac{|x_m-x_n|}{w_m}), log(\frac{|y_m-y_n|}{h_m}), log(\frac{w_n}{w_m}), log(\frac{h_n}{h_m}) )$，embedding方法跟Attention Is All You Need裏的位置編碼一樣，使用正弦函數和餘弦函數。
使用$W_G$將高維幾何特徵轉換爲標量權值，小於0時設爲0。

論文在幾何特徵的使用上也嘗試了其它方法：1) none，直接將$w^{mn}_G$設爲1.0計算權值，即不使用。 2) unary，將高維幾何特徵直接與外觀特徵融合，然後跟none一樣計算權值。實驗部分的表1有相關的結果對比，論文選擇的公式5加權方法比較有效。

在實現時，類似於multi-head attention，一個目標關係模塊(object relation module)包含$N_r$個關係特徵，每個特徵的維度爲輸入特徵$f^m_A$的$\frac{1}{N_r}$，圖2可能會有一點問題，幾何特徵寫了兩個，但是外觀特徵只寫了一個，大家根據公式理解就好，最後通過相加對輸入目標的外觀特徵進行增強：