論文:《Scale-Transferrable Object Detection》 CVPR2018
參考文章:https://blog.csdn.net/xh_hit/article/details/79512146
https://blog.csdn.net/DL_wly/article/details/100142415
1、STDN模型介紹
爲解決物體檢測中的多尺度問題,特別是提高對於小物體的檢測效果,一些經典的算法不斷出現,例如FPN、DSSD等,通過整合不同尺度的語義特徵,在不同尺度的map上做預測,但是這些方法,在提高對於目標物體特別時小物體識別效果的同時由於加入了額外的層,也增大了計算量,影響了檢測的實時性。下圖顯示了目前主流方法與本文方法之間的不同。通過(d)圖我們可以發現,本文的scale-transfer module不僅改變了預測層map的尺寸,也改變了部分層的通道數。
針對以上問題,作者提出尺度變換模塊(scale-transfer module STM),即獲得了不同尺度的語義特徵,又沒有增加額外的參數,降低檢測的速度。其整體框架基於SSD,基礎網絡採用的是DenseNet-169,DenseNet通過多層連接的方式整合低層和高層信息,其特徵提取能力較強。
STDN模型的主要框架如下:
整體網絡結構與SSD類似,提取DenseNet-169的最後一個Dense block中的6個concatenate層作爲預測的特徵層。與SSD直接利用VGG16後幾層直接預測不同的是,STDNC則加入了獨創的STM,在不增加任何參數和計算量的同時達到基於低分率特徵map獲得高分率特徵map的目的,最終實現整體網絡正確率和速度的提升。
2、STM模塊簡介
STM模塊由池化層(Pooling)和尺度轉換(scale-transfer)層組成。基礎網絡DenseNet-169最後一個block的尺寸爲9*9,各層之間的通道數不同。爲了獲取不同尺度的特徵map,作者將STM直接嵌入到DenseNet中,具體做法如下:
①Pooling用來獲得小尺度的特徵map
②尺度轉換層通過減少feature maps的通道個數獲得大尺度的map,整個過程沒有增加任何參數。
參考上圖整體模型結構,對於①很好理解,即是一般池化過程獲得較小分辨率的map;
對於②則相當於增大的map尺寸而壓縮了通道數。
作者在文中說“The scale-transfer layer is an operation of periodic rearrangement of elemenets”,並用了一個看似很深奧的公式表示這一過程。
結合作者給出的一個示意圖和網絡模型的最後兩層非常好理解。
展示的就是增大map,壓縮channel的示意。
也就是把信息擱到整張圖上去,原本1x1的區域變成了rxr,相當於feature的一個rearrangement。
3、STDN網絡信息
4、實驗結果
VOC 2007 test:
COCO:
VOC上的速度與精度:
實驗結果上來看,兼顧速度與精度。速度優勢比較大。