文章目录
Baseline
- Baseline方案是基于FPN+Faster R-CNN检测框架,加入FPN结构的目的是提高网络对小瑕疵的定位精度。
- 使用了Mask RCNN提出来的Roi-Align Pooling,主要是想减少不同Roi Pooling带来的量化误差的问题。
- 使用了空洞卷积,提高顶层特征的感受野。
两种改进,一种是Dual Path Aggregation for Object Detection,另一种是Multi-levels Roi-Align Pooling。
Training Details
Innovations
Dilated convolution
problem
s1 Dual Path Aggregation for Object Detection
在原先Baseline的基础上添加多一路的特征提取,这里想解决的问题是FPN在检测极端长宽比的瑕疵的时候会有Roi映射非最优的情况出现,而极端长宽比的瑕疵(长宽比大于10)在数据集上的比例接近40%,可以说是相当的多。因此利用另一支路的特征来弥补极端长宽比瑕疵下FPN的Roi Mapping非最优所带来的特征损失。
s2 Multi-levels Roi-Align Pooling(MLRP)
也是要解决极端长宽比的情况。FPN在做Roi Mapping的时候是根据Roi的面积来计算的,这会导致当出现极端长宽比情况时,这个映射结果会偏大,导致特征丢失严重。于是我们就想,在做Roi Pooling的时候我同时取映射出来的第kt层以及第kt-1层不就可以了吗?这样即使是在kt偏大的时候kt-1的特征就更加合适了。而且,取两层的特征进行融合还能增加特征的多尺度特性,同时还不会带来额外的计算量。
整合这个结构之后的检测框架长下面这个样子,相比于第一个方案,这个方案更加精炼,虽然精度没那个高,但是检测速度可以达到4帧每秒,还算比较高的了。