【论文笔记】:EFPN

&Title

在这里插入图片描述

&Summary

挑战: 小物体检测仍然是一个尚未解决的挑战,因为很难仅提取几个像素的小物体信息。

先前工作: 虽然在特征金字塔网络中进行尺度级别的相应检测可以缓解此问题,但我们发现各种尺度的特征耦合仍然会损害小物体的性能。

ours methods: 提出了扩展特征金字塔网络(EFPN),它具有专门用于小目标检测的超高分辨率金字塔等级。
具体来说:

  • 设计了一个新颖的模块,称为特征纹理转移(FTT),该模块用于超分辨特征并同时提取可信的区域细节。
  • 设计了前景-背景平衡损失函数来减轻前景和背景的面积不平衡。

效果: 所提出的EFPN在计算和存储上都是有效的,并且在小型交通标志数据集清华腾讯100K小型通用对象检测数据集MS COCO上产生了最新的结果。

contributions:

  • 我们提出了扩展特征金字塔网络(EFPN),它可以提高小物体检测的性能。
  • 我们设计了一个基于关键特征参考的SR模块,称为特征纹理转移(FTT),为扩展的特征金字塔提供了可信的细节,从而可以更精确地检测小物体。
  • 引入了前景背景平衡损失函数,以引起人们对正像素的注意,减轻了前景和背景的面积失衡。
  • 我们的高效方法大大提高了探测器的性能,并成为清华腾讯100K和小类别的探测器的最新技术

&Research Objective

  • 小目标检测

虽然在特征金字塔网络中进行尺度级别的相应检测可以缓解此问题,但作者发现各种尺度的特征耦合仍然会损害小物体的性能。在文章中,作者提出了扩展特征金字塔网络(EFPN),它具有专门用于小物体检测的超高分辨率金字塔等级。

&Problem Statement

  • 反复使用池化操作: 尽管一些通用物体检测器在本质上提高了精度和效率,但是当检测具有几个像素的小物体时它们仍然表现不佳。 这是由于CNN反复使用池化层来提取高级语义,因此在下采样过程中滤除小对象的像素。

  • FPN的局限性: 尽管FPN提高了多尺度检测性能,但FPN检测器中金字塔等级与提议大小之间的启发式映射机制可能会使小物体检测感到难以理解。

    利用低级功能是获取有关小对象信息的一种方法。特征金字塔网络(FPN)是通过融合不同级别的特征并构建特征金字塔来增强特征的第一种方法,其中上部特征图负责较大的物体检测,下部特征图负责较小的物体检测
    在这里插入图片描述
    如图1(a)所示,小型对象必须与中型对象和某些大型对象共享相同的特征图,而像大型对象这样的简单情况则可以从适当的级别选择特征。此外,如图1(b)所示,FPN底层的检测精度和召回率随着对象比例的减小而急剧下降。图1表明,普通FPN检测器中跨尺度的特征耦合仍然会降低小物体检测的能力。

  • 超分辨率(SR)方法: 补偿小对象信息丢失的另一种方法是提高特征分辨率。早期的实践直接对输入图像进行超分辨,但是在随后的网络中特征提取的计算成本很高。其他SR方法避免增加CNN主干网的负担,但他们仅根据低分辨率功能图来想象缺少的细节,而忽略了在主干网其他功能中编码的可信细节。 因此,他们倾向于在CNN特征上制造假纹理和伪像,从而导致误报。

&Method(s)

  • 提出了扩展特征金字塔网络(EFPN),它利用具有丰富区域细节的大规模SR特征来分离中小型物体检测。

EFPN以专门用于小型物体检测的高分辨率级别扩展了原始FPN。为了避免直接的高分辨率图像输入会导致昂贵的计算,我们的方法的扩展高分辨率特征图是通过特征SR嵌入式FPN类框架生成的。在构建了普通特征金字塔之后,所提出的特征纹理转移(FTT)模块首先结合了来自低分辨率特征的深度语义和来自高分辨率特征参考的浅层区域纹理。然后,后续的类似FPN的横向连接将通过量身定制的中间CNN特征图进一步丰富区域特征。

  • EFPN优势:高分辨率特征图的生成取决于CNN和FPN生成的原始真实特征,而不是依赖于其他类似方法中不可靠的想象力。如图1(b)所示,EFPN中具有可信细节的扩展金字塔等级大大提高了对小物体的检测性能
  • 引入了由大型输入图像生成的特征作为监督来优化EFPN
  • 设计了前景-背景平衡损失函数。

我们认为,一般的重建损失将导致对正像素的学习不足,因为小的实例仅覆盖了整个特征图上的分数区域。 考虑到前景背景平衡的重要性,我们将对象区域的损失添加到全局损失函数中,从而引起人们对正像素特征质量的关注。

在这里插入图片描述

EFPN

FPN通过对高级CNN特征图进行上采样并通过横向连接将它们与较低特征融合来构建4层特征金字塔。 尽管不同金字塔层次上的特征负责不同大小的对象.
小对象检测和中等对象检测 仍耦合在FPN的同一底层P2上,如图1所示。为缓解此问题,我们建议使用EFPN扩展带有新级别的特征金字塔,可解决小物体检测以及更多区域细节的问题。

EFPN图如上图图二所示。下面公式是EFPN中扩展的操作的描述:
在这里插入图片描述
详细的内部操作解释和细节看原文!

FTT

在这里插入图片描述
上图为FTT模块的框架。 输入特征P3的主要语义内容首先由内容提取器提取。 然后,我们通过Sub-Pixel卷积将内容特征的分辨率提高一倍。 纹理提取器从主流特征和参考特征的组合中选择可靠的区域纹理用于小物体检测。 最后,残余连接有助于将纹理与超分辨的内容特征融合在一起以生成P‘ 3用于扩展功能金字塔。
FTT的输出P‘3可以定义为:
在这里插入图片描述
其中Et(·)表示纹理提取器分量,Ec(·)表示内容提取器分量,↑2×此处表示通过子像素卷积[29]进行的双倍放大,而 || 表示特征串联。 内容提取器和纹理提取器均由残差块组成。

看作者做的实验,FTT的效果其实也不咋地,加上FTT仅仅使得小目标的精度提高0.8个点,而中目标却降了0.6个点,在大目标上居然下降了2.2个点,呃,实在是很惨,而且整体的效果肯定也不好,不然就不会只单独列出了小中大目标的精度对比了。
在这里插入图片描述

Training Loss

前景背景平衡损失旨在提高EFPN的综合质量
常见的全局损失将导致对小物体区域的学习不足,因为小物体仅构成整个图像的一部分。 前景-背景平衡损失功能通过两个部分改善了背景和前景的特征质量:

  1. 全局重建损失
    在这里插入图片描述
    由于背景像素构成了图像的大部分,因此全局构造损失主要是增强了与真实背景特征的相似度。 在这里,我们采用通常在SR中使用的l1损失作为全局重建损失Lglob。其中F表示生成的特征图,Ft表示目标特征图。

  2. 正补丁损失。
    在这里插入图片描述
    正补丁损失用于引起人们对正像素的注意,因为严重的前景背景不平衡会阻碍检测器性能。 我们将前景区域的l1损耗用作正补丁损耗Lglob。其中Ppos表示地面真实物体的补丁,N表示正像素的总数,而(x,y)表示特征图上像素的座标。 正补丁损失对对象所处的区域起更强的约束作用,从而强制学习这些区域的真实表示。

然后将前景背景平衡损失函数Lfbb定义为:
在这里插入图片描述
其中λ是权重平衡因子。 平衡损失函数通过改善前景区域的特征质量来挖掘真实的正数,并通过改善背景区域的特征质量来消除误报。

Total loss:
引入了2倍FPN的特征图,以监督EFPN的训练过程。 不仅底部金字塔的扩展级别受到监视,而且FTT模块也受到监视。 EFPN的总体培训目标定义为:
在这里插入图片描述
这里,P2×2是来自2×输入FPN的目标P2,P2×3是来自2×输入FPN的目标P3。

&Evaluation

在这里插入图片描述
在这里插入图片描述

&Conclusion

作者提出了EFPN来解决小物体检测问题。 在类似FPN的框架中嵌入了新颖的FTT模块,以有效地捕获扩展金字塔等级的更多区域细节。 另外,作者设计了前景与背景平衡的训练损失,以减轻前景与背景的区域不平衡。 各种数据集上的最新性能证明了EFPN在小物体检测中的优越性。
EFPN可以与各种检测器结合使用,以增强对小物体的检测,这意味着EFPN可以转移到更具体的小物体检测情况,例如人脸检测或卫星图像检测。

Thinks

  • 文章sub-Pixel卷积的作用:将内容特征的分辨率提高一倍。这个操作应该是提高小目标精度的关键。因为文章提到了,补偿小对象信息丢失的一种方法是提高特征分辨率。
  • 文章仅用了底层信息的融合(cat),这是因为前面所说的,最底层的特征层是检测中小目标的关键,这个点或许可以好好思考一下,可以做出效果。
  • FTT的涨点效果一点都不好,相比较来说,balance loss 的效果比较明显,说明了loss这块做的前景还是蛮大的。
  • 仅仅增加了一层预测层,没有将处理完后的层融合到其他层上去,效果仅仅在小目标上(可以理解,毕竟只是用了中低层语义信息),但是大目标上是爆炸的降低,这个原因是不是因为去掉了原来五层中的上层中的一层的原因???
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章