【论文笔记】:Residual Bi-Fusion Feature Pyramid Network for Accurate Single-shot Object Detection

&Title

在这里插入图片描述

&Summary

原始FP缺乏自下而上的途径来抵消来自较低层特征图的丢失信息。它在大型目标检测中表现良好,但在小型目标检测中表现较差。

本文提出了一种新的结构“残差金字塔”。双向融合深度特征和浅层特征,以实现对小型和大型目标的更有效,更可靠的检测。

  • 由于具有“residual”性质,因此与其他双向方法相比,可以轻松地对其进行训练并将其集成到不同的主干(甚至更深或更轻)上。
  • residual FP的一个重要特性是:即使采用更多层,仍可以发现精度的提高。

在VOC和MS COCO数据集上进行的大量实验表明,该方法获得了SoTA结果,可实现高精度,高效的目标检测。

关键词:残差、双向

&Research Objective

  • 为了在深层次提高小目标检测精度和效率
  • 为了保持大尺寸和小尺寸目标检测结果的一致性

&Problem Statement

FP是一种自上而下的聚合,可收集语义上强大的功能,以改善两阶段和一阶段检测器中的尺度不变性。

  • 但是,由于池的移位效应,该自上而下的路径无法保留准确的对象位置。因此,当使用更多层时,FP提高检测精度的优势将消失。

FPN是一种自上而下的方法,可从最后一层引入语义上强大的功能,以从背景中区分对象(请参见图1(a))。但是,由于池化和量化的影响,它无法保留其准确位置。
--------------------------------------------------------------------------------------------------------
池化会导致特征的移位,使得目标位置产生偏移,锚点选取的特征就会产生偏差。

问题就在于如何更好的保留准确的对象位置????

其实,文章从这个点切入,引出自己的特征融合模块,个人感觉不太恰当。在文章的第三部分,解决这个问题只占了很少的一个篇幅,其他模块也不是解决这个问题的。而这边好像是只列出这个问题???但实际的解决方法只是其中的一个而已,这样问题和解决办法不是对应的。

&Method(s)

在这里插入图片描述
图a 为常用方法FPN,然而,由于池化和量化(pooling and quantization)的影响,它不能保持精确的位置。要解决这个问题,最好不仅从当前层预测目标啊,而且从浅层预测目标,以防止小目标丢失。

图b 我们提出了一个核心(连接和重组)模块,通过仅重用主干网的三个层(前一层、当前层和下一层)的特征映射来传递语义和定位信息。“重用”机制可以节省内存和带宽,适合嵌入式应用。核心模块的输出可以进一步“净化”以生成更多的语义特征

在这里插入图片描述
图c 当“净化”模块被注入到特征金字塔中时,一个新的双融合特征金字塔被构建用于高质量的目标检测.

图d 显示了这个剩余特征金字塔的最终架构。受ResNet-101概念的启发,如果实现“残差”概念,这个金字塔可以容易、高效和有效地训练。

CORE Module for Feature Fusion

在这里插入图片描述

  • 这项工作的新颖之处在于,可以递归执行CORE模块;
  • 该模块不仅可以将高级语义特征从较深的层连接到较浅的层(自顶向下的方向),而且还可以将空间上较丰富的特征从较浅的层重新组织为较深的层(自下而上的方向)。
  • 为了避免使用过多的抖动操作(即卷积)和计算上昂贵的操作(即池化和加法)来保留尽可能多的预测特征,CORE模块(请参见图2)采用串联来融合更深层的特征到当前层,并进行重组操作以将较浅层的特征融合到当前层。

与现有技术中使用的连接方法不同:

提出的CORE块递归连接不仅相邻层而且更深层的上下文特征。换句话说,CORE块融合了主干网的4个相邻尺度(浅,深,深和更深)中的各种特征,以丰富这些特征以进行更好的检测。两种操作都非常节省时间,并且可以保留所有上下文信息。在这种情况下,准确性和效率都会提高。

Purification

在这里插入图片描述
图3说明了此纯化模块的流程图,可以进一步净化CORE模块的输出,以从4个相邻尺度的融合特征中形成更多上下文和语义特征。

该模块由特征提取的两个连续部分组成,其中每个部分包括一个瓶颈层和一个3×3卷积层。 前者用于将通道数从D减少到D / 2。 后者用于提取上下文特征。 第二个瓶颈层的输出被馈送到另一个CORE模块,以在较浅的范围内细化定位信息。

疑问:不是有三个瓶颈层吗????

BiFusion Feature Pyramid

为了从下至上的路径传播语义和位置信息,当前的双向方法采用内存和带宽消耗的方式从浅层创建新的特征图以进行特征融合,从而更准确地预测候选目标。

与这些方法不同,这项工作通过递归执行CORE和Purification模块,仅重用了主干网的三个层(上一个,当前和下一个)中的特征图。图1(c)显示了构建Bifusion特征金字塔的递归架构。第(i-1)个CORE和Purification模块的输出是第i个CORE模块的输入,用于生成更多语义上下文。 “重用”机制使其在存储和带宽方面效率很高,并且适用于嵌入式应用程序。从深层和浅层双向循环地循环语义和位置信息也显着提高了小目标检测的准确性。递归性质还带来了定位信息以细化大对象的位置。

递归???这里的递归操作不是很明白具体是什么操作。

Residual Feature Pyramid

在这里插入图片描述
使用RECORE模块,本文构造了一个新的“残差”特征金字塔,以从深层和浅层双向循环语义和本地化信息 。 残差性质使新特征金字塔易于训练并将其集成到不同的主干中,从而显着提高了小物体检测的结果。

Improvement on Large and Medium Object Detection

在这里插入图片描述
YOLO V3提高了小目标检测的准确性,但导致了大目标 物体检测的准确性。 为避免这种意外影响,LPIRC 2019的获胜者团队[28]改进了大中型目标的结果,但忽略了小目标上的结果,以提高整体精度。 为了在小型和大型目标检测上实现高精度,残留金字塔结构中各层之间的特征将使用自下而上的途径进一步融合(如图6所示)。

&Evaluation

精度对比
在这里插入图片描述

在这里插入图片描述
可视化结果
在这里插入图片描述

&Conclusions

本文提出了一种新的结构“残差金字塔”。 双向融合深度特征和浅层特征,以实现对小尺寸和大尺寸目标的更有效和更可靠的检测。 由于具有“剩余”性质,因此与其他双向方法相比,可以轻松地对其进行训练并将其集成到不同的主干(甚至更深或更轻)上。

为了避免手工制作的锚问题,将采用一些无锚方法来进一步提高检测准确性。

&Notes

Contributions

  • 提出了一种新颖的残余双融合特征金字塔,将深层和浅层的特征融合到更精确的单发物体检测中。
  • 由于其“残留”性质,可以轻松地训练新特征金字塔并将其集成到不同的主干中。
  • 当评估其在不同数据集,目标大小和目标类别上的性能时,可以更好地概括残差金字塔。
  • BiFusion模块可以减少合并对目标检测的平移不变性影响。
  • 在VOC和MS COCO数据集上进行的大量实验表明,该方法实现了SOTA结果,可实现高精度,高效的目标检测。

Think:

  • 就文章中提到问题:池化会导致特征的移位。下面则是文章的解决办法,个人没搞明白这个操作是什么意思。有大佬明白的话,麻烦告知解释一下!

we use a reshaping technique to divide it into four sub-patches. Then, 11? convolution is applied to fuse four sub-patches and FM i-1 to generate C i-1 channels of features.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章