Thermal Object Detection using Domain Adaptation through Style Consistency

目录

摘要

1、简介

2、相关工作

A、目标检测

B、域适配

C、类型迁移

3、提出的方法

A、基于风格一致性(ODSC)的热图像目标检测

B、热图像中目标检测的跨域模型转移(CDMT)

4、实验和结果

A、数据集

B、基于风格一致性的热图像目标检测

C、热图像中目标检测的跨域模型传输

5、讨论

6、讨论


摘要

最近发生的一起自动驾驶车辆致命事故引发了一场关于在自动驾驶传感器套件中使用红外技术以提高鲁棒目标检测可见性的辩论。与激光雷达、雷达和照相机相比,热成像具有探测红外光谱中物体发出的热差的优点。相比之下,激光雷达和相机捕捉在可见光谱,和不利的天气条件可以影响其准确性。热成像可以满足传统成像传感器对图像中目标检测的局限性。提出了一种用于热图像目标检测的区域自适应方法。我们探讨了领域适应的多种概念。首先,利用生成式对抗网络,通过风格一致性将低层特征从可见光谱域转移到红外光谱域。其次,通过转换训练好的可见光光谱模型,采用具有风格一致性的跨域模型进行红外光谱中的目标检测。提出的策略在公开可利用的热图像数据集(FLIR ADAS和KAIST多光谱)上进行评估。我们发现,通过域适应将源域的低层特征适应到目标域,平均平均精度提高了约10%。

1、简介

经过近40年的酝酿,自动驾驶正在成为现实,而使用深度神经网络的目标检测是这一成功的关键因素。自动驾驶汽车必须提供更广泛的可移动性,在这样做的同时,车辆及其周围环境的安全是首要考虑的问题。SOTIF(预期功能的安全性)详细反映了在没有技术系统故障[1]情况下发生的安全违规。例如,无法感知环境中的物体,或被雾遮挡视线。自动驾驶汽车应该能够在这种情况下安全运行。环境感知对自动驾驶汽车的安全性起着至关重要的作用。环境感知一般定义为对周围环境的意识或认识,以及通过视觉感知[2]对情况的理解。在自动驾驶车辆中通常用于感知的传感器包括激光雷达、RGB摄像机和雷达。

感知的一个基本方面是目标检测。上述传感器均用于目标检测。每个传感器都有自己的缺点。激光雷达提供了稀疏的环境三维地图,但是像行人和骑自行车的人这样的小物体很难在远处检测到。RGB相机在光照条件不好的情况下表现很差,如低照度,太阳眩光,以及来自车头灯的眩光。雷达的空间分辨率较低,无法准确地检测行人。[3]在恶劣光照条件下的目标检测存在缺口。传感器套件中包含的热感摄像机将填补环境感知方面的盲点。热成像相机是强大的对抗光照变化和有利的部署在白天和晚上。目标检测和分类是视觉感知中不可缺少的内容,为自动驾驶车辆的感知计算提供了基础。

在可见光谱(RGB)领域的目标检测被认为足以满足传统人工智能的应用,并产生了深度神经网络模型的鲁棒目标检测[4][5][6]。然而,与可见光光谱相比,热成像中目标检测的精度还没有达到最先进的水平。上述目标检测算法依赖于在大型RGB数据集上训练的网络,如ImageNet[7]、PASCAL-VOC[8]和MS-COCO[9]。在热领域,此类大规模公共数据集的稀缺程度相当。现有的两个主要城市热图像数据集包括FLIR ADAS图像数据集[10]和KAIST多光谱数据集[11]。KAIST多光谱数据集只对person进行注释,FLIR ADAS数据集对四个类进行注释。为了克服缺少大规模标记数据集的问题,本文提出了一种热域目标检测的域采用技术。

目前,为了缩小源域和目标域之间的差距,已经引入了许多领域适应的方法。其中值得注意的是生成对抗网络(GAN)[12]和领域混淆[13]的特征适应。在缺乏数据的热图像领域的领域适应前景激励了本研究,探索在目标检测背景下缩小可见光和红外光谱差距的导数。领域适应受到生成模型的影响,例如,CycleGAN[14]将源领域的单个实例转换为目标领域,而不将样式属性转换为目标领域。低层次视觉线索对[15]目标检测的性能有隐含的影响。将这些视觉线索从源域委托到目标域,有利于目标域内目标检测的鲁棒性。

这项工作探讨了使用域适应来改进目标域内目标检测的低层次特征从源域(RGB)到目标域(thermal)的转换。利用多风格变换将曲率、边缘等低层特征从源域转移到目标域。基于深度学习的目标检测体系结构,如VGG [16], ResNet[17],在多风格的传输图像上从头训练,以实现红外光谱(目标域)目标检测的鲁棒性。此外,我们还提出了一种基于区域自适应的热图像目标检测跨域模型转换方法。目标检测深度神经网络在源域(可见谱)训练的跨域模型转移。训练后的模型被称为跨域模型,在目标域(红外光谱)中使用多风格传输图像和不使用多风格传输图像进行评估。采用FLIR ADAS[10]和KAIST多光谱[11]对所提技术进行评价,PASCAL-VOC评价用于确定被检测物体[8]的平均精度。

本文的主要贡献如下:

1)改进了红外光谱(热图像)中的目标检测,利用风格一致性挖掘低层特征。提出的目标检测框架在平均平均精度方面优于现有的基准。

2)跨域模型转移范式不仅增强了红外光谱(热图像)中的目标检测,而且为未标记数据集的标记提供了一种新的有效方法。

本文的其余部分组织如下:第二节讨论相关文献。第三节讨论了拟议的方法。第四部分着重于实验和结果。第五节对所提方法进行了比较和讨论。第六部分对研究进行了总结。

2、相关工作

A、目标检测

人类的视觉在无数具有挑战性的条件下识别物体是强大的,但对于自动驾驶汽车来说,这不是一项琐碎的任务。图像中目标检测的最终目的是定位和识别图像中存在的同一或不同目标的所有实例。在热成像中,考虑到周围环境的温度,对人的检测做了重要的工作。经典的图像处理技术可以用于检测,如阈值分割在[18]中使用。利用HOG特征和局部二值模式从热图像中提取特征,利用这些特征训练支持向量机分类器[19][20][21]。深度神经网络在RGB图像的目标检测中得到了广泛的应用,并应用于热图像的目标检测。提取多光谱图像的特征图,并将其送入目标探测器,即目标探测器。、faster-RCNN和YOLO。[26]用显著性图增强多光谱图像,使其在白天将注意力集中在行人上。

B、域适配

通常情况下,由于环境的变化,神经网络在不同的数据集上进行测试时会遇到性能下降。在某些情况下,数据集不够大,不足以训练和优化网络。因此,像领域适应这样的技术为研究界提供了一个重要的工具。目标检测的领域适应包括合成数据的生成或对真实数据的增强等技术来训练网络。[28]使用了来自不同领域和多个类的公开对象检测标记数据集并合并它们。例如,时尚数据集Modanet与MS-COCO数据集通过利用使用域自适应的快速rcnn合并。在[29]中,使用Faster-RCNN来进行图像和实例的自适应。[30]引入了两步的方法,他们对低级特征的检测器进行了优化,然后通过实现内容和样式图像之间的距离最小化,将其开发为高级特征的鲁棒分类器。[31]提出了一种跨域半执行学习结构,它利用伪注释来学习目标域的最佳表示。他们使用了细粒度的域转移、渐进的基于置信度的注释扩展和注释采样策略。

C、类型迁移

图像样式传输是将来自一个域的图像内容与来自另一个域的另一个图像的样式呈现的过程。[32]演示了利用卷积神经网络的特征表示在两幅图像之间进行样式转换。他们证明了从CNN得到的特征是可分离的。它们操纵样式图像和内容图像之间的特征表示,以生成新的、在视觉上有意义的图像。[33]提出了基於单个对象的样式转换。他们使用补丁置换训练GAN学习样式并将其应用到内容图像中。[34]引入了XGAN,它由自动编码器组成,以无监督的方式从样式和内容图像捕获共享特性,并学习样式到内容图像的转换。[35]提出了CoMatch layer,它学习特征的二阶统计量,并将其与风格图像进行匹配。利用CoMatch层,他们开发了具有实时性能的多风格生成网络。随着深度学习技术的兴起,通过在可见光谱(RGB图像)的大数据集上训练神经网络模型,大大改善了目标检测范式。本文提出了一种基于风格转换的区域自适应算法来改进热图像目标检测的新方法。标签数据的缺乏或不存在给研究社区带来了挑战,标签并不是一项容易的任务。该方法可用于对其他数据集进行域适应,如在Kitti数据集中引入雾天气或将白天图像转换为夜晚图像。

3、提出的方法

本节介绍了基于风格一致性和跨域模型转换的热目标检测方法,用于热图像中的目标检测。

A、基于风格一致性(ODSC)的热图像目标检测

最近在深度学习方面的进展已经彻底改变了RGB图像领域的目标检测领域。但是,在红外图像领域,它缺乏准确性。用于目标检测的深度神经网络在低级和高级[39][15]上执行特征计算。在这部分的工作中,我们认为,通过使用域适应从源域(RGB)转移低层特征,可以提高目标域(热)的目标检测性能。

对于热图像(内容图像xc)和可见光谱图像(风格图像xs)的域适应,我们采用了多风格生成网络(MSGNet)进行风格转换[35]。通过多风格生成网络将特定风格从源领域翻译到目标领域的优势,为CycleGAN[14]提供了额外的优势。CycleGAN从源图像生成特定样式的翻译图像。MSGNet提供了将多样式从源域转换到目标域的功能,同时缩小了两个域之间的差距。该网络从源域提取纹理、边缘等低级特征,同时保持目标域的高级特征一致。图2(a)显示了从可见光谱(RGB)图像到热图像的风格转换框架。

MSGNet的架构如图2(a)所示。MSGNet网络同时以内容图像和风格图像作为输入,而之前已知的架构,如Neural Style[33],仅以内容图像为输入,然后生成传输图像。发生器网络(G)由由siamese网络[36]组成的编码器组成,编码器通过CoMatch层与变换网络共享网络权值。CoMatch层将内容图像xc的二阶特征统计量与风格图像进行匹配。对于给定的一幅内容图像和一幅风格图像,在第j个尺度上激活描述网络表示内容图像,其中Cj、Hj、Wj分别为特征图通道数、特征图高度和宽度。风格图像xs中特征的分布采用Gram矩阵表示,由公式给出。1. 为了在保持源图像语义内容同时匹配目标风格特征静态的CoMatch层中找到想要的解,我们采用了一种迭代逼近方法,将训练阶段的计算代价纳入如式所示。2.

                       

                           

式中,为零输入数据在Gram矩阵中的重塑函数。

                                

其中W是一个可学习的矩阵。

给定预训练的损失网络,生成网络输出与目标之间内容和风格差异的加权组合最小化。生成网络由给出,由,权值参数化。学习是通过对内容图像和样式图像进行采样,然后估计生成器的权重WG来最小化损失:

                                 

                                  

其中为content和style loss的正则化参数。在尺度c考虑内容图像,在尺度考虑样式图像。全变分正则化是lTV,它用于生成图像[40]的平滑性。

B、热图像中目标检测的跨域模型转移(CDMT)

基于风格一致性的目标检测框架如图2所示。该网络由两个模块组成;第一部分是一个多风格的网络。它通过热图像组成的内容图像与RGB图像组成的风格图像之间进行低级特征变换,生成风格图像。与热图像相比,传输样式图像包含低层特征,但生成的图像保留了语义形状,保持了高层语义特征的一致性。第二个模块由最先进的检测体系结构组成:Fast R-CNN[4]主干网加上ResNet-101 [17], SSD-300和512[5]主干网VGG16 [16], MobileNet[37]和EfficientNet[38]。该网络根据不同风格的图像进行训练,从而在可见光谱和热图像之间架起一座桥梁。快速rcnn和SSD中的骨干是用imageNet上训练得到的预训练权重进行初始化的。

4、实验和结果

A、数据集

在本研究中,我们使用了两个热图像数据集。第一个是FLIR ADAS数据集[10],第二个是KAIST多光谱数据集[11]。FLIR数据集由9214幅图像和对象注释使用边界框作为评估度量。研究对象可分为四类,即:汽车、人、自行车和狗。但是,dog类的注释很少,因此本研究不考虑。图像分辨率640×512,来自FLIR Tau2相机。数据集由日夜图像组成,大约60%(6136)图像是在白天捕获的,40%(4092)图像是在夜间捕获的。数据集由可见光谱(RGB图像)和热图像组成,但仅对热图像提供注释。可见光谱(RGB图像)和热图像没有配对,因此热注释不能与可见光谱(RGB图像)一起使用。本研究只考虑带标注的热图像。在实验期间考虑将数据集的标准分割成训练数据和验证数据。训练数据集由8862幅图像组成,验证包含1366幅图像。韩科院的多光谱数据集包含95000幅可见光(RGB图像)和热光谱图像,对于每个类别,数据集既有白天图像,也有夜间图像。注释只提供给person类一个给定的边框。可见光谱(RGB图像)和热图像是成对的,这意味着对热图像和可见光谱(RGB图像)的标注是相同的。使用分辨率为320×256的FLIR A35相机拍摄图像。我们应用了数据集的标准分割,在训练中使用数据集中80%的图像,在验证时使用数据集中20%的图像。

B、基于风格一致性的热图像目标检测

利用最先进的目标检测网络,验证了该方法的有效性。目标检测网络包括Faster-RCNN、SSD-300、SSD-512。这些目标检测网络采用不同的骨干结构实现;例如,在Fast R-CNN中,ResNet-101被用作骨干网络;SSD-300使用VGG16、MobileNet、Efficient entNet;SSD-512采用VGG16作为骨干架构。数据集包括FLIR ADAS和KAIST多光谱数据集。FLIR ADAS数据集使用标准分割分为训练和测试,而KAIST数据集仅用于测试目标检测网络。所有的网络都是用Pytorch实现的,数据都是PASCALVOC格式。本研究采用标准的PASCAL-VOC评价标准[8]。

(1)、Baseline:首先对Baseline方法进行了试验,以进行竞争分析。目标检测网络是按照其特定的训练配置进行训练的。在训练Faster-RCNN时,采用ResNet-101的预训练模型对热图像数据集进行调整和微调。网络是训练使用Adam优化与学习率10−4和势头0:9为总时代15。SSD对象检测网络的实验评估由i-e SSD-300和SSD-512两种不同架构组成。在训练SSD-300时,根据训练数据对预训练的骨干网模型进行微调。作为SSD-300骨干网络的VGG16、MobileNet和efficient entnet的学习率分别为10^−4、10^−3和10^−3。对于SSD-512实验,只有预先训练过的vga -16作为训练的后端,学习率为10 - 3。在拥有6GB计算内存的Nvidia-GTX-1080上,所有网络都使用了4的批处理大小。

                                      

(2)、实验配置: 在提出的方法中,MSGNet被训练成内容图像,而RGB图像对应风格图像。在MSGNet的训练中,使用VGG16作为损耗网络。采用在ImageNet数据集上预先训练好的loss network的权值来训练MSGNet。在损失网络中,平衡权如方程所示。3分别为lc = 1和ls = 5,而内容和风格的总变分正则化为lTV = 10^−6。在实验配置中,迭代更新样式图像xs的大小,大小分别为[256;512;768]。内容图像的大小被调整为256×256。Adam优化器与学习率10^−3在训练配置使用。MSGNet在Nvidia-GTX-1080上总共训练了100个epoch,一批是4个epoch。MSGNet的训练模型生成了如图1 (a)所示的风格图像,这些风格图像用于训练目标检测网络。通过对热成像测试数据的分析,对训练在风格图像上的检测网络进行评估。目标检测网络的训练配置保持与基线配置相似,进行对比分析。

(3)、实验结果:为了评估我们的实验配置,我们测试了基线和提出的方法,在两个热数据集(FLIR ADAS和KAIST多光谱)。表i显示了每个检测网络基线配置的平均平均精度(mAP)得分,即对网络进行热图像训练和热图像评价。表二为所提方法的定量结果。实验结果表明,该方法的最佳模型配置为(SSD512+VGG16)。与基线配置相比,该方法的最佳模型配置的地图得分具有更好的评价得分。相反,在热图像上训练的检测网络在风格图像上测试的检测网络表现出边际有效性,如表iii所示。图1(a)是通过风格一致性对热图像中目标检测的定性结果。最佳模型配置(SSD512+VGG16)的定性结果如图4 (1strow)所示。

                                 

C、热图像中目标检测的跨域模型传输

跨域模型评估采用目标检测器在可见光谱(RGB图像)上的训练。本实验使用KAIST数据集,考虑到两个域的标签都是可用的。本研究纳入的目标检测网络包括Faster-RCNN、SSD-300、SSD-512。网络模型配置类似于ODSC。Fast R-CNN是ResNet-101主干的后端。对SSD-300网络进行了VGG16、MobileNet、高效网骨干网的试验。此外,SSD-512是VGG16体系结构的后端。训练所有检测网络的学习率都是10−3,除了带efficiency net主干的SSD-300,它被测试为10−4。所有上述检测网络的批处理大小为4。与ODSC类似,使用MSGNet生成样式化的图像,如图1(b)所示。在这种情况下,内容图像由可见域(RGB图像)组成,风格从热图像转移,这意味着内容图像(RGB图像)和风格图像(热图像)之间的风格转移提高了目标检测效率。通过风格一致性,MSGNet的超参数与热图像目标检测的实验配置保持一致。然后在这些生成的样式图像上测试检测网络。1)实验结果:通过对训练后的网络对风格图像和非风格图像进行评价,研究了该方法的评价。表4给出了跨域模型转移的定量结果。定量分析结果表明,与不使用样式转移的跨域模型转移相比,使用带有样式转移的跨域模型转移提高了目标检测效率。此外,使用跨域模型传输的方法将克服注释未标记数据集的差距,并有助于作为未标记数据集的弱检测器。使用风格转移对CDMT的定性评价如图1(b)所示,图4 (2ndrow)为使用风格转移CDMT对目标检测的定性结果。

                                 

5、讨论

为了提高所提方法的有效性,我们使用最先进的方法对所提方法进行了广泛的分析。表v显示了所提出的方法(ODSC和CDMT)与最新方法的比较。在我们的分析中,我们考虑了在FLIR ADAS和KAIST多光谱数据集上使用标准PASCAL-VOC评估的方法。除了地图得分,类地图得分也与最新的方法进行比较,并与所提出的方法进行比较。此外,该方法的比较并不局限于只包含领域自适应的方法。将目标检测结果与PiCA-Net[26]和R3Net[26]等常用目标检测方法进行了比较,这些方法使用显著性映射进行了目标检测。从表v中可以明显看出,在大多数类别中,与现有的基准测试相比,我们提出的策略具有更好的性能。在未来的工作中,我们的目标是提高在低光照条件下自动驾驶汽车的感知能力。车道检测和分割是在可见区域内进行的一项具有挑战性的工作。在热领域完成这些任务将有助于增强自动驾驶车辆的视觉感知。

6、讨论

本研究的重点是提高自动驾驶车辆在低光照条件下的目标检测。提出了一种基于风格一致性的区域自适应方法。我们利用MSGNet将低层特征从源域转移到目标域,同时保持高层语义特征的一致性。该方法比现有的热域目标检测方法有更好的性能。此外,通过在可见区域和热区域之间采用跨域模型转换,增强了模式转换的有效性。该方法不仅适用于低光照条件下的自动驾驶汽车,也适用于一般的机器人。目标检测是感知的一个组成部分,而未能检测到目标会危及自动驾驶汽车的安全。在探索红外光谱时,热图像提供了对周围环境的额外洞察,提出的技术改进了热图像中目标检测的结果,对自动驾驶的安全有积极的影响。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章