ICCV2019——SCRDet Towards More Robust Detection for Small, Cluttered and Rotated Objects

文章目錄

ICCV2019——SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects

論文地址：https://arxiv.org/abs/1811.07126
開源代碼：https://github.com/DetectionTeamUCAS/R2CNN-Plus-Plus_Tensorflow

1.Abstract

目標檢測一直是計算機視覺的一個重要組成部分。雖然已經取得了很大的進展，但對於小尺寸、任意方向、密集分佈的物體仍然存在挑戰。除了自然圖像外，這些問題在非常重要的航空圖像中尤爲突出。本文提出了一種適用於小、雜、旋轉物體的多類別旋轉檢測器SCRDet。爲了提高對小目標的敏感度，設計了一種融合多層特徵和有效錨定採樣的採樣融合網絡。同時，結合有監督像素注意網絡和信道注意網絡，通過抑制噪聲和突出目標特徵來實現對小目標和雜亂目標的檢測。爲了獲得更精確的旋轉估計，在平滑L1損失中加入IoU常數因子，以解決旋轉邊界盒的邊界問題。

2.Introduction

遙感圖像的三大挑戰：

（1）小物件，航空圖像通常包含被複雜的周圍場景淹沒的小物體

（2）雜亂的排列，用於探測的物體通常排列密集，如車輛和船舶

（3）任意方向，航空圖像中的物體可以以不同的方向出現。遙感中普遍存在的大長寬比問題對其提出了進一步的挑戰。

本文的主要貢獻：

（1）針對小目標，設計了一個集特徵融合和精細錨定採樣於一體的採樣融合網絡（SF-Net）

（2）針對雜亂的排列，爲了抑制噪聲，突出前景，文章提出了一種由像素注意網絡和通道注意網絡組成的監督多維注意網絡（MDA-Net）

（3）針對任意方向的雜亂密集目標，引入角度相關參數進行估計，設計了角度敏感網絡。提出了一種改進的smooth L1 loss的方法，通過增加雙常數因子來解決旋轉包圍盒迴歸的邊界問題，以提高對任意旋轉對象的魯棒處理能力。

（4）本文提出的方法可以應用於自然圖像，並且與一般的檢測算法相結合超越了最先進的方法。

目前使用的方法：

3.SCRDet

SCRDet主要由SF-Net，MDA-Net和Rotation Branch三個部分組成。SF-Net，MDA-Net主要通過不斷的強化目標來提取新的特徵圖，然後利用Rotation Branch來進行位置的迴歸和分類。

3.1 SF-Net

上圖爲SF-Net的流程圖來看，我們可以獲得以下信息：

SF-Net中我們只使用ResNet中的C3和C4層來進行融合，目的是爲了平衡語義信息和位置信息，只使用C3和C4可以更好的捕獲有效信息，忽略不相關特徵。
在基於錨的檢測框架中，SA的值等於特徵映射相對於原始圖像的縮減因子，直觀點的說輸入的圖片爲800 * 800（指W和H）,若SA=4的話則輸出200 * 200。（這裏的SA的值是2的指數倍數）。

上述的是不同的錨距下的採樣，橙黃色邊框表示錨點，綠色框表示地面真相，紅色邊框表示錨點與地面真相框IOU最大的錨點（這裏解釋一下，一個錨點周圍有衆多個以錨點爲中心的橙黃色框，而紅色邊框就是在這些橙黃色邊框中找出與綠色的地面真相框的IOU最大的框）。由上圖可見，SA越小，錨點對應的框與地面真相框的max IOU更大，即效果更好。
SF-Net的兩個通道（C3和C4）都上採樣到SA=S（將特徵圖縮小至最原始輸入圖的1/S），這裏S是預期的錨距，如下圖所示，實驗在DOTA數據集上，進行不同錨距S的測試下得出結果，在精度和速度之間權衡，S的值普遍設爲6。

（這裏OBB指oriented bbox，即水平框；HBB指horizontal bbox，帶有方向的框），如下圖
C3經過上採樣後，加入了一個Inception Model來擴大C3的感受野，並增加語義信息。（這裏Inception model如上面的圖所示，通過不同比例的卷積核來捕獲目標的多樣性，Filter concatenation指將圖片的深度疊加），最後將此通道的元素和C4上採樣後的特徵元素相加，得到新的特徵圖F3。

3.2 MDA-Net

使用MDA-Net的目的：由於後面的步驟我們需要用RPN提取區域目標，可能會引入大量的噪聲信息（如圖b），過多的噪聲淹沒目標信息，且目標之間的邊界變得模糊（如圖a）。因此我們有必要增強目標線索，弱化非目標信息。
MDA-Net流程：
- 像素注意網絡：將特徵圖F3經過Inception Module通過不同比例的卷積核提取不同範圍的目標特徵，經過卷積操作得到一個雙通道的顯著映射圖（前景和背景）。然後我們對該顯著圖進行softmax操作，來使顯著性圖的值在[0,1]之間，然後來降低噪聲，相對增強目標信息。這裏爲了保存顯著圖的上下文信息，我們爲了指導這個有監督學習過程，我們得到一個二值映射做爲標籤。
- 通道注意網絡：通過GAP獲得通道數C，然後降維至輸入的1/r，經relu激勵函數，恢復原來維度，然後通過sigmoid函數得到權重
- 三者相乘：將經softmax後的顯著圖的其中一個通道，F3特徵圖，通道注意網絡得到的權重三者相乘

3.3 Rotation Branch

3.3.1 ROI Align And GAP

在RPN建議區域目標後，我們爲了充分利用訓練前的權重資源，將fc6和fc7換成了C5 block（ROI Align）和GAP（全局平均池）

ROI Align是一個取消量化操作，使用雙線性內插的方法獲得座標爲浮點數的像素點上的圖像數值，從而將整個特徵聚集轉化的一個連續過程。

通俗理解：輸入一張800 * 800的圖片，圖上有一個600 * 600的目標包圍框，然後我們通過主幹網絡提取特徵後，圖片縮小成1/32，因此特徵圖尺寸爲25 * 25，而包圍框尺寸爲18.75 * 18.75，我們通過常規方法ROI Pooling量化後包圍框尺寸爲18 * 18，因此偏差0.75。而ROI Align則是不進行量化，通過插值法來將特徵聚集。

由於在遙感航拍圖像上我們要檢測的小目標居多，因此例如0.75的偏差在大型對象上可能影響很小，但是在小目標上就會造成較大誤差。所以在這裏我們加上C5 block。
全局平均池來代替全連接層是一個減少計算量，防止過擬合的常見方法。

簡單來說就是少了FC層這個中間過渡，一個FC層中間需要大量的調優參數，而我們使用GAP減少了中間的複雜計算，在最終輸出結果相同的情況下，降低了空間參數，防止過擬合且減少計算量。

3.3.2 The regression of the rotation bounding box

參數	意義
x	中心座標x
y	中心座標y
w	寬度
h	高度
θ	角度（與x軸夾角）
x	地面真值箱（適用y,w,h,θ）
xa	錨定箱（適用y,w,h,θ）
x’	預測箱（適用y,w,h,θ）

3.3.3 Loss Function

skew IOU and R-NMS：
軸對齊目標框上的IOU會導致斜交目標框IOU不準確，從而破壞預測，因策我們提出一種基於三角剖分思想的skew IOU，且R-NMS做爲skew IOU的後續操作（不同類別R-NMS設置的閾值不同）

多任務損失：

3.3.3.1 Regrssion Loss

參數	意義
N	候選框數量
λ1	折衷參數，取值爲4
t’n	二進制值，等於0爲前景，等於1爲背景
Lreg	smooth L1 Loss
v’*j	預測框偏移矢量
v*j	真實框的目標向量

迴歸損失的創新：

由於角度的週期性，我們在理想的迴歸形式（錨定框逆時針旋轉）的損失很大，因此我們需要以複雜的形式進行迴歸（例如藍色框在縮放同時順時針旋轉），由此可見，迴歸的難度增大了。

3.3.3.2 Attention Loss

3.3.3.3 Classification Loss

4.Experience

4.1 Ablative study

R2CNN爲基準設置
SF-Net模擬了特徵融合，且通過SA縮減因子的設置的靈活性，優化其性能
MDA-Net減少噪聲，強化了目標。一些例如橋樑，港口等長寬比大一點的目標的mAP增加。且MDA-Net的最大貢獻是有監督學習。
IoU-Smooth L1 Loss消除角度邊界影響，明顯提升檢測精度
image pyramid將圖片隨機縮放（四種）發送到網絡訓練。提高檢測效率。

SCR-Det明顯在衆多類別中檢測精度達到較好水準。

4.2 Peer Methods Comparison

OBB task：

ICN，RoI-Transformer，SCRDet因爲有特徵融合這個特點，體現出檢測優越性。
由於SCRDet的Inception structure擴大感受野，且MDA-Net衰減噪聲，因此在較大的目標上SCRDet優越於ICN和RoI-Transformer。

HBB task：
消除代碼中的角度參數後，SCEDet的檢測性能依舊在絕大多數分類上達到最佳檢測精度。

4.3 Experiments on Natural Images

通過COCO和VOC2007數據集上使用MDA-Net和FPN都有最佳的mAP，說明MDA-Net在密集，小目標下有好的檢測效果
SCRDet-R2CNN的效果比R2CNN-4*的效果好，說明SCRDet在原有方法上進行了進一步提高（提高了2.85%）

5. Conclusion

提出SF-Net通過擴大感受野和靈活使用縮放因子SA來進行對不同層之間的特徵圖進行採樣，特徵融合。
提出MDA-Net，通過兩種注意力網絡，生成權重且進行有監督學習強化特徵。來強化目標，衰弱噪聲。
任意角的座標檢測，通過加入IOU常數因子來避免邊界問題損失突增的情況，有效保存定位信息，且防止密集情況下的檢測混亂。
可應用於多種類型數據集，且論文方法提高了現有方法下的檢測精度