【论文笔记】:IPG-Net: Image Pyramid Guidance Network for Object Detection

&Title:

在这里插入图片描述

&Summary

在深度卷积网络中,随着卷积层变得更深而导致位置或空间信息的丢失,这种空间信息的丢失导致目标检测中的特征未对准。这里,特征未对齐意味着锚点和卷积特征之间存在一些偏移。除了对视空间信息外,较小的目标也很容易在更深的卷积层中丢失。解决这一问题的关键问题就在于,如何获取浅层的足够的语义信息,来解决上诉的两个问题:

  • 特征不对齐
  • 小目标在深层中丢失

作者引入了图像金字塔,以便在主干网络的特征金字塔的每个阶段提供更多的空间信息,来解决上诉问题。
其中图像金字塔是从浅层子网获得的,它具有更丰富的空间信息,尤其是对小物体。然后设计了一个融合模块,将新的图像金字塔特征融合到骨干网络中。

contributions:

  • 我们提出了一种新的图像金字塔引导(IPG)网络,以解决深层中的空间信息和小物体特征丢失的问题。
  • 我们设计了一个新的浅层图像金字塔引导子网,以提取图像金字塔特征,它既灵活又轻巧。
  • 我们还设计了一个灵活的融合模块,该模块简单但有效。

&Research Objective

  • 获取浅层足够的语义信息

    For Convolutional Neural Network based object detection, there is a typical dilemma: the spatial information is well kept in the
    shallow layers which unfortunately do not have enough semantic
    information, while the deep layers have high semantic concept but
    lost a lot of spatial information, resulting in serious information
    imbalance.

  • 解决特征不对齐问题

    FPN,主要解决了浅层缺少高语义信息的问题。 尽管特征金字塔网络可以提供浅层特征的语义信息,但在深层特征中仍然存在特征未对准和信息丢失的情况。
    特征未对齐是指锚点和卷积特征之间存在一些偏移。

作者认为,用于检测的更好的特征提取器应该有两个共同的特征:

  1. 足够的浅图像信息用于边界框回归,因为目标检测是典型的回归任务。
  2. 足够的语义信息用于分类,这意味着输出特征来自深层。

&Problem Statement

对于基于卷积神经网络的目标检测,存在一个典型的难题:空间信息被很好地保留在浅层中,不幸的是,这些浅层没有足够的语义信息,而深层却具有较高的语义概念,但丢失了大量空间信息,因此严重的信息失衡。

深度卷积网络将随着该层变得更深而导致位置或空间信息的丢失。 对于分类任务,此属性可能不是问题,而框回归对于检测任务很重要。 但是,这种空间信息的丢失导致对象检测中的特征未对准。 在这里,特征对齐意味着锚点和卷积特征之间存在一些偏移。 除了丢失空间信息外,较小的对象也很容易在更深的卷积层中丢失

先前的工作出现了像PANet、libra R-CNN、EFTP等集中在解决特征级别的不平衡和不对准问题,但是在目标检测中任然没有人能够完全解决这个问题。

&Method(s)

为了获取浅层的足够语义信息,特征金字塔网络(FPN)用于构建自顶向下的传播路径。本文中,除了对浅层信息进行自上而下的组合以外,我们提出了一种新颖的网络,称为图像金字塔引导网络(IPG-Net),以确保每层的空间信息和语义信息都足够。
IPG网络包含三个主要部分: 图像金字塔引导子网,基于ResNet的骨干网络和融合模块。

  • 图像金字塔引导子网为每个比例尺的特征提供空间信息,以解决信息不平衡的问题。即使在ResNet的最深层阶段,该子网也有望为边界框回归和分类提供足够的空间信息。
  • 设计了一个有效的融合模块来融合来自图像金字塔的特征和来自特征金字塔的特征。

网络的整体结构如下图所示:以ResNet为基准来构建新骨干网络、图像金字塔引导网络、融合模块。
在这里插入图片描述
算法过程: 图像金字塔引导子网络从图像金字塔中接收一组图像,并提取图像金字塔特征进行融合。子网的功能是提取浅层特征以提供空间信息和详细信息。图像金字塔特征用于引导骨干网络保持空间信息和小物体的特征。 我们使用融合模块执行引导。 融合模块的功能是融合骨干网中的深层特征和图像金字塔引导子网中的浅层特征。 融合模块的思想是将两种类型的特征进行转换,然后将它们组合在一起,以实现目标检测(尤其是小目标检测)的增强效果。

Image Pyramid Guidance Sub-Network

传统上,我们会引入图像金字塔来获得更多的比例,以减少图像比例的影响,因为卷积网络不具有比例不变的能力。 通过这种方式可以显着提高性能,但是计算量也太大,无法在深度神经网络的训练阶段提供。

提出疑问: because convolution network don’t have the scale-invariant ability???卷积网络不具有比例不变的能力,怎么理解????
提出疑问: 计算量大体现在什么地方???? 因为要在每个图像尺度上独立地计算特征,所以很慢,计算量也大??存疑
提出疑问: 无法在深度神经网络训练使用,那是否可以在浅层?????

与传统目的不同,这里我们使用图像金字塔来指导骨干网络,以学习更好的检测特征。 更好的特征意味着不同尺度的所有特征都具有丰富的空间信息和足够的语义信息,例如:没有特征不对齐和信息不平衡。

图像金字塔引导子网的输入是一个简单的图像金字塔,可以表示为:
在这里插入图片描述
其中H和W是与物体检测中的公共输入图像相同的图像大小,n是图像金字塔中的层数。 我们在实验中将n = 4设置为与标准ResNet的深度一致。

图像金字塔引导子网如下图2所示
在这里插入图片描述
图像金字塔引导子网的结构由两部分组成,一个是7× 7次卷积,然后进行2×2最大池化,另一个是残差块。 残差块接受具有相同维度的特征和具有与骨干网络中特征维度相同的不同维度的输出特征。
为什么使用浅层网络提取图像金字塔特征有两个原因:

  • 一方面,IPG的功能是获取空间或细节信息,深度卷积将丢失这些信息。
  • 另一方面,轻量级设计不会增加过多的计算量。

具有图像金字塔的图像金字塔引导子网的输出可以表示为:
在这里插入图片描述
其中f(·)表示图像金字塔引导子网,如图2所示,在这里插入图片描述表示级别i的图像金字塔特征。 来自不同等级图像金字塔的所有特征构成图像金字塔特征F。

Backbone Network

设计:从包含Res 1-5的标准ResNet修改了骨干网。 在ResNet的末尾添加了新阶段,每个新阶段都包含两个与ResNet相同的Bottleneck模块。

消融研究表明,增加一个新阶段可以比其他情况更好。 骨干网太深也不利于检测。
在这里插入图片描述

作者设计比标准ResNet更深的卷积网络的原因

  • 图像金字塔引导子网将足够的空间信息或详细信息提供到骨干网络中,从而减少了特征未对准或细节丢失的影响。 深度骨干网的优势在于,骨干网可以生成更好的语义信息,这有利于分类。
  • 网络可以覆盖更大范围的物体。

Fusing Module

融合公式:
在这里插入图片描述
Oi是级别i中融合模块的输出功能;I0和Ii分别是图像金字塔中层级 0 和层级 i 的图像;β(·)表示融合模块的融合功能;fi(·)表示层级 i 的图像金字塔引导子网的输出,gi(·)表示层级 i 的骨干网的输出。 如果图像金字塔中有n个图像,则层级数为n。

作者提出了几种不同的变体来证明图像金字塔引导的有效性。 Sum,Product和Concatenation是在实验中使用的三种融合模块。具体融合方式如下图所示:
在这里插入图片描述
消融实验验证了sum的效果更好
在这里插入图片描述

&Experiments

在coco数据集上:AP达到45.7
在这里插入图片描述
在pascal VOC 2007上:mAP达到85.9
在这里插入图片描述

&Conclusion

本文中,关注的主要问题是目标检测的信息不平衡。在以前的检测主干中,浅层和深层之间存在严重的信息不平衡。本文提出了一种新颖的图像金字塔引导网络(IPG-Net),包括一个新的基于图像金字塔引导的子网,一个融合模块和一个基于图像金字塔的骨干网络。

  • 新的子网可以提取适当的特征,其中包含了空间信息和小目标信息。
  • 子模块的图像金字塔特征和骨干网络的特征通过融合模块融合在一起,以减少特征错位问题和深层小目标丢失问题。

作者进行了大量的消融实验,以验证新型图像金字塔引导网络的有效性。 利用图像金字塔引导的自然优势,该工作还可以进一步扩展到视频目标检测任务。

&Notes

存在的挑战:

Deep CNNs blur the feature.

更深的卷积网络可在分类任务中提取更好的语义特征,而无需定位目标。 但是,深度卷积对目标检测不利,因为深度特征中的目标位置与原始图像中的位置不对齐。 但是基于锚点的检测算法在很大程度上依赖于以下假设:目标的位置与任何特征的原始图像对齐。 因此,锚点与特征之间存在严重的未对准。 随着深度的增加,该现象变得更加严重。

FPN suffers the misalignment.

特征金字塔网络融合了深层特征和浅层特征,从而实现了更好的检测性能。 但是,由于深层特征的模糊,在深层特征和浅层特征之间必须存在未对齐的情况。 例如,空间位置(i,j)对应于浅层中的目标k,但是空间位置(i,j)对应于深层中的目标w,k不等于w。

Deep CNNs lose small objects.

较深的CNN相对于初始图像尺寸大了32 步长,因此在分类方面实现了高性能。 但是,大步幅也会导致缺少输入图像的详细信息,例如小目标信息。 检测任务中的小目标依赖于输入图像的细节信息,因此保持小目标的细节对于骨干网络至关重要。 我们通常会在浅层特征中检测缺少高语义信息的小目标。 特征金字塔网络通常用于构建从上到下的路径,以提供浅层特征的语义信息。 尽管FPN引入了语义信息,但是小目标的信息或特征已经在更深的层次上丢失了,因此FPN无法解决小目标丢失的问题。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章