CenterNet(objects as points)算法总结:Mimic、DCNv1、DCNv2、DLA

DCNv1

参考文章:https://zhuanlan.zhihu.com/p/37578271
主要思路:卷积操作不是在规规矩矩的3x3的格子里做了,而是有了种种偏移。
在这里插入图片描述
在这里插入图片描述
deformable convolution在特征图的每个位置都生成一组偏移量。以kernel=3x3为例,图中的N就是9,经过卷积后输出HxWx18的feature map,每个location位置的18分别对应3x3卷积的9个位置的9组偏移量。
在这里插入图片描述
在这里插入图片描述
优势:
1.对物体的形变和尺度建模的能力比较强
2.感受野比一般卷积大很多,因为有偏移的原因,一般的空洞卷积空洞是固定的,对不同的数据集不同情况可能最适合的空洞大小是不同的,但是可形变卷积的偏移是可以根据具体数据的情况进行学习的
3.可形变卷积可以适应物体的尺度,背景类的尺度一般在medium和large尺寸的物体之间,作者认为这说明large的目标可以更有效帮助我们识别干扰

Mimic

参考文章:https://blog.csdn.net/mengmengmiao/article/details/77884565
主要思路:
大多数的检测算法,都会有个基于CNN的特征提取器,然后使用不同的方法来对特征进行解码,得到用于检测的数据。因此,大的模型和更加高效的模型的区别主要在于这个CNN特征提取器,也就是backbone。我们拥有一个表现很好的检测模型,我们可以用它来监督其他检测网络。那么问题就是如何用一个好的检测模型,监督训练一个更加高效的网络,同时保持它的准确率。
Mimicking的主要思想是通过大的模型的soft targets或者logits来训练一个小的神经网络。通常soft targets包含了大的模型学习得到的信息,是的小的模型能够近似地拟合这种大模型的知识。
在这里插入图片描述
单纯使小模型学习大模型的feature map并不能work,原因在于feature map的维度太高,包含太多全局的信息,而对于仅有少量object的feature map,通常只有微弱的响应。因此,该文中提出了一个新的卷积网络mimic方法,即将学习整个feature map变为学习proposal采样之后的feature来简化任务。
在这里插入图片描述
对于mimic loss进行normalization可以取得更为稳定的mimic结果
在这里插入图片描述
对于小网络与大网络feature map大小不同的情况(譬如小网络中输入图像减半),可以增加一个转换层(deconvolution)使得大小网络最终mimic的层保持一致。
在这里插入图片描述

DCNv2

参考文章:https://zhuanlan.zhihu.com/p/53127011
在DCNv1基础上改进
1.使用更多的deformable convolutions
2.增加幅值,原有的2×k×k变为3×k×k
3.采用mimicing loss思想,右面即为新增加的分支,该分支与原来的分支共享权重。但是其输入不同,是RPN阶段得到的Roi直接crop and resize下来的。在经过2-fc层后,产生的特征进行比较,计算mimic loss
在这里插入图片描述
在这里插入图片描述

DLA

https://blog.csdn.net/qq_27667937/article/details/81116314
主要思想来源:
在这里插入图片描述
IDA 融合不同的分辨率/尺度上的feature,HDA 合并所有的模块和通道的feature
在这里插入图片描述

CenterNet算法

参考文章:https://zhuanlan.zhihu.com/p/66048276,写的很好,可以直接看这个
主要思想:直接检测目标的中心点和大小,是真anchor-free。
特点:
1.CenterNet的“anchor”仅仅会出现在当前目标的位置处而不是整张图上撒,所以也没有所谓的box overlap大于多少多少的算positive anchor这一说,也不需要区分这个anchor是物体还是背景 - 因为每个目标只对应一个“anchor”,这个anchor是从heatmap中提取出来的,所以不需要NMS再进行来筛选
2.CenterNet的输出分辨率的下采样因子是4,比起其他的目标检测框架算是比较小的(Mask-Rcnn最小为16、SSD为最小为16)。
3.主要实现了三种任务:目标检测、关键点检测、3D目标检测。

目标检测

论文中CenterNet提到了三种用于目标检测的网络,这三种网络都是编码解码(encoder-decoder)的结构:

Resnet-18 with up-convolutional layers : 28.1% coco and 142 FPS
DLA-34 : 37.4% COCOAP and 52 FPS
Hourglass-104 : 45.1% COCOAP and 1.4 FPS

每个网络内部的结构不同,但是在模型的最后都是加了三个网络构造来输出预测值,默认是80个类、2个预测的中心点座标、2个中心点的偏置。用官方的源码(使用Pytorch)来表示一下最后三层,其中hm为heatmap、wh为对应中心点的width和height、reg为偏置量。

检测思路:
在这里插入图片描述
在这里插入图片描述
中心点损失
在这里插入图片描述
在这里插入图片描述
偏置损失
在这里插入图片描述
大小损失
在这里插入图片描述
推理过程
在预测阶段,首先针对一张图像进行下采样,随后对下采样后的图像进行预测,对于每个类在下采样的特征图中预测中心点,然后将输出图中的每个类的热点单独地提取出来。具体怎么提取呢?就是检测当前热点的值是否比周围的八个近邻点(八方位)都大(或者等于),然后取100个这样的点,采用的方式是一个3x3的MaxPool,类似于anchor-based检测中nms的效果。
最终根据当前中心点存在物体的概率值选择,代码中设置的阈值为0.3,也就是从上面选出的100个结果中调出大于该阈值的中心点作为最终的结果
在这里插入图片描述
CenterNet代码地址:https://github.com/xingyizhou/CenterNet,简单看了一下网络、训练和推理的部分代码,提供的功能很全,赞!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章