《Scale-Aware Trident Networks for Object Detection》筆記

Introduction

特徵金字塔有一個缺點,它每層的特徵都是由不同的參數卷積得到的,這樣做犧牲了不同尺度下特徵的一致性,這會減低訓練數據的影響和在每個尺度下有過擬合的風險。這篇論文的目標就是生成對所有尺度都有效率的有統一表徵能力的特徵。

論文首先從網絡的感受野入手,研究不同的感受野對檢測網絡的影響。論文把conv4層的卷積層換成空洞卷積層,膨脹率從1到3分別做實驗,實驗結果如下
感受野的研究
從實驗結果可以得知,小物體需要較小的感受野,而大物體需要大的感受野。這個實驗結果啓發了作者,要適應性地爲不同尺度下的物體使用相對應的感受野。

這對這兩點,論文提出了Trident Network。

Method

Network Structure

論文的方法叫做Trident Network,因爲網絡結構是一個三叉戳的形狀,如下圖所示
Trident Network
從conv4開始分成3個分支,這幾個平行的分支叫做trident blocks。每個分支有着相同的卷積結構,而且共享參數,不同的只是空洞卷積的膨脹率,從上往下膨脹率分別是1,2,3。這樣做,每個分支可以得到特定尺度的特徵。

一個trident block的例子如下圖所示
trident block
這裏的×N表示可以有N個平行的分支。

共享參數有3個優點。首先,可以減少參數。第二,在每個尺度下都進行相同的特徵變換操作,每個分支得到的特徵具有相同的表徵能力。第三,可以用所有樣本來訓練這些參數,避免了分支對某些樣本過擬合。

Scale-aware Training Scheme

爲了讓不同尺度下的物體使用相對應的感受野,論文提出了Scale-aware Training Scheme,具體就是在訓練是爲不同大小的樣本分配到不同的分支上。分支i有一個合法的範圍[li,ui][l_i, u_i],RoI的長和寬分別hw,只有符合
liwhui l_i \le \sqrt{wh} \le u_i
RoI才被分配到分支i。

Inference and Approximation

推理的時候,使用NMS篩選3個分支得到的檢測結果。爲了減少運行,論文提出了TridentNet Fast,是一個TridentNet的快速實現的近似。TridentNet Fast只使用中間的分支用於推理,因爲中間分支的尺度範圍包括了小物體和大物體。而且從實驗結果可以發現,相比TridentNet的表現效果,TridentNet Fast的表現效果只是輕微地下降了一點。

Experiments

Ablation Studies

消融實驗的結果如下
消融實驗的結果

Comparison with State-of-the-Arts

和其他方法的比較
和其他方法的比較

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章