文章目錄
Baseline
- Baseline方案是基於FPN+Faster R-CNN檢測框架,加入FPN結構的目的是提高網絡對小瑕疵的定位精度。
- 使用了Mask RCNN提出來的Roi-Align Pooling,主要是想減少不同Roi Pooling帶來的量化誤差的問題。
- 使用了空洞卷積,提高頂層特徵的感受野。
兩種改進,一種是Dual Path Aggregation for Object Detection,另一種是Multi-levels Roi-Align Pooling。
Training Details
Innovations
Dilated convolution
problem
s1 Dual Path Aggregation for Object Detection
在原先Baseline的基礎上添加多一路的特徵提取,這裏想解決的問題是FPN在檢測極端長寬比的瑕疵的時候會有Roi映射非最優的情況出現,而極端長寬比的瑕疵(長寬比大於10)在數據集上的比例接近40%,可以說是相當的多。因此利用另一支路的特徵來彌補極端長寬比瑕疵下FPN的Roi Mapping非最優所帶來的特徵損失。
s2 Multi-levels Roi-Align Pooling(MLRP)
也是要解決極端長寬比的情況。FPN在做Roi Mapping的時候是根據Roi的面積來計算的,這會導致當出現極端長寬比情況時,這個映射結果會偏大,導致特徵丟失嚴重。於是我們就想,在做Roi Pooling的時候我同時取映射出來的第kt層以及第kt-1層不就可以了嗎?這樣即使是在kt偏大的時候kt-1的特徵就更加合適了。而且,取兩層的特徵進行融合還能增加特徵的多尺度特性,同時還不會帶來額外的計算量。
整合這個結構之後的檢測框架長下面這個樣子,相比於第一個方案,這個方案更加精煉,雖然精度沒那個高,但是檢測速度可以達到4幀每秒,還算比較高的了。