译文:

摘要  我们提出YOLO,一种新的目标检测算法。之前的目标检测工作都是将其定为分类任务后再进行检测。与之相反,我们将目标检测作为解决回归问题,并求解目标的空间包围框和相关类的概率。一个神经网络模型在一次评估中直接从完整的图像内预测目标的包围框座标和类别概率。由于整个检测过程是一个神经网络模型,我们可以直接在其端到端的训练中对整体检测网络进行优化并得到更好的结果。

我们的统一架构模型具有极快的速度。我们的基于YOLO的模型可以实时处理每秒45帧图像。而其中的较小网络的版本,Fast YOLO,每秒可以处理155帧图像,同时仍然能够达到其他实时检测器的两倍的mAP值。与最先进的检测系统相比,YOLO会产生更多的定位误差,但是该误差并不是将背景预测为目标而产生的错误。最后,YOLO学习了非同一般的目标特征表达。当检测任务从自然图像推广到其他领域,如艺术品,YOLO方要法优于其他检测方法,包括DPMR-CNN

 

 

 

1 简介

人们看一次图像,就会立即知道图像中的物体是什么,它们在哪里,以及它们是如何相互作用的。人类的视觉系统是快速和准确的,这就使我们能够执行复杂的任务,如小心翼翼的驾驶汽车。快速而准确的目标检测算法将允许计算机在没有专用传感器的情况下驾驶汽车,也使辅助设备能够向人类用户传送实时场景信息,并解放通用响应型机器人系统的潜力。

对于当前的检测系统需要重新定位分类器以完成检测任务。为了检测一个目标,这些系统先为该对象训练一个分类器,之后对测试图像中不同位置和尺度的目标进行评价。比如可变形部件模型(DPM)使用滑动窗口的方法,其中分类器在整个图像中进行均匀间隔的位置滑动[10]

最新的方法,像R-CNN算法,使用区域建议的方式首先在图像中生成潜在的包围框,然后在这些建议框上运行分类器。在完成分类之后,进行后处理来优化包围框,消除重复的检测框,并基于场景中其他目标计算包围框的评价得分[13]。由于每个单独的过程都必须分开训练,所以造成该检测过程是复杂缓慢并且难以优化的。

我们将目标检测任务作为一个单一的回归问题,直接依据图像像素得出包围框的座标和分类概率。使用我们的系统,你只看一次(YOLO)对一张图像,就可以预测哪些目标存在,以及它们在哪个位置。

YOLO方法是十分清晰及简洁的,如图1所示。单个卷积神经网络同时预测这些栅格的多个包围框座标以及分类概率。YOLO对全图像进行训练,并直接优化检测性能。这种统一的模型要比传统的物体检测方法有以下几个优点。

1YOLO检测系统。YOLO处理图像非常简洁直接。针对我们的系统:(1)调整输入尺寸为448×448,(2)图像在一个卷积神经网络运行,(3)通过模型置信度设置阈值得出最终结果。

第一,YOLO检测速度非常快。由于我们将检测任务作为一个回归问题,所以我们不需要复杂的过程。我们的方法只是在测试时对一幅新的图像运行神经网络来预测目标。我们的基础版本网络以每秒45帧的速度运行,并没有在Titan X GPU上进行批处理运行,快速版本以每秒150帧的速度运行。这意味着我们可以用不到25毫秒的等待时间就能实时处理流视频。此外,YOLO方法检测精度达到了其他实时系统平均精度的两倍以上。对于我们的系统在网络摄像头上进行实时运行的演示,请参阅我们的项目主页:http://pjreddie.com/yolo/

第二,YOLO在预测时对于全图的信息都有影响。不同于滑动窗口方法和基于区域的建议方法,YOLO在训练和测试期间看到整个图像,因此它以隐式的方法编码类别的上下文信息及目标的外观信息。Fast R-CNN,一个顶级的检测方法[14],由于其对图像不能看到较多的上下文信息,所以在图像中错误的对背景进行调整。YOLO方法使得背景误差的数量不到Fast R-CNN方法的一半。

第三,YOLO对于所学的目标具有高度的概括性表示。当对自然图像进行训练,并在艺术图上进行检测时,YOLO远优于如DPMR-CNN之类的顶级检测方法。由于YOLO具有极高的泛化性能,当该方法应用于新的领域或意外输入时,它不太可能崩溃。

YOLO在准确度上仍然落后于最先进的检测系统。虽然它能快速的识别图像中的物体,但它对于一些物体的精确定位仍然有偏差和难度,尤其是尺度较小的物体。在我们未来的实验中仍会研究这些问题,并权衡速度与精度。

我们所有的训练和测试代码都是开源的,还可以下载多种预先训练的模型。

2 统一的检测

我们将目标检测的分离过程统一在一个神经网络中。我们的网络使用整幅图像的特征来预测每个目标的包围框,它还同时预测一幅图像中所有包围框的分类。这就意味着我们的网络全面的理解整副图像和图像中所有目标。YOLO方法能实现端到端的训练实时的检测速度,同时保持较高的平均精度。

我们的系统将输入图像划分成S×S个栅格。如果目标的中心落入某个栅格单元中,则该栅格单元负责检测出该目标。

每个栅格单元需要预测B个包围框和置信度得分。这些置信度得分反映了模型对于包围框包含目标有多少信心,并且也被认为是这些包围框预测出目标有多少准确度。正式地表达,我们将置信度定义为Pr⁡(Object)*IOUpredtruth。如果该栅格单元中不存在目标对象,则置信度得分应该为零。否则,我们的置信度得分等于模型预测出的包围框与真实目标框之间的重叠比率(IOU)。

每个包围框由5个预测参数组成:xywh和置信度得分。其中,(x,y)表示包围框相对于栅格单元边界的中心座标。wh代表对于整个预测包围框的宽度和高度。最后,置信度得分表示预测的包围框和任意目标真实框之间的IOU

每个栅格需要预测C个类别的条件概率:Pr⁡(Classi|Object)。这些概率计算仅用在包含目标的栅格单元上。因此,我们只预测每一个栅格单元的一组类别概率,而不考虑包围框的数量B

2:模型。我们的系统模型将检测作为一个回归问题。它把图像分为S×S个栅格,每个栅格单元预测B个包围框,及这些框的置信度得分和类别概率。这些预测被编码为S×S×B*5+C)个张量。

在测试时,我们将类别条件概率与包含目标的包围框预测出的置信度得分相乘:

PrClassiObject*PrObject*IOUpredtruth=PrClassi*IOUpredtruth    (1)

式子(1)就给了我们对于每个框的针对类别的置信度得分。这些得分编码出该类别在框中出现的概率,同时预测出框包含目标的位置信息。

为了验证YOLOPASCAL VOC数据集上的表现,我们设定S=7B=2PASCAL VOC20个类别标签,所以C=20。我们最终预测出7×7×30个张量。

2. 1网络设计

我们实现了本文模型设计为卷积神经网络,并在PASCAL VOC检测数据集[9]上对模型进行评价。网络的初始卷积层从图像中提取特征,而之后的全连接层网络预测输出的目标分类概率和包围框座标。

我们的网络架构设计灵感来自于图像分类模型GoogLeNet[33]。我们的网络由24个卷积层以及2个全连接层组成。并不像GoogLeNet模型使用inception结构,我们简单地使用1×1降维层后连接3×3的卷积层,该结构类似于林等人的设计[22]。完整的网络如图3所示。

我们也训练了一个快速版本的YOLO算法设计,用来推动快速目标边缘检测的研究。Fast YOLO使用较少卷积层的神经网络(9层代替24层)和这些层中的卷积核。除了网络的尺寸外,YOLOFast YOLO之间的所有训练和测试参数都相同。

我们的网络最终输出是预测出7×7×30个张量。

2. 2训练

我们使用1000ImageNet竞赛数据集[29]对卷积网络进行了预训练。针对预训练阶段,我们使用图3中的前20层卷积层,再连接一个平均池化层和一个全连接层构成预训练网络。我们对该网络进行了大约一周的训练,并在ImageNet2012验证集上进行模型评价,本模型的单类Top-5精度达到88%,该结果与Caffe模型库中GoogLeNet网络的精度相当。

然后,我们更换模型来执行检测任务。任等人的实验表明将卷积层和连接层放入经过预训练的网络中可以提高模型检测性能[28]。根据他们所提供的示例,我们在预训练网络中添加了4个卷积层和2个全连接层,并对所添加网络进行随机初始化权重。由于检测任务通常需要目标的细粒度视觉信息,因此我们增加了网络的输入分辨率,从224×224增加到448×448

 

3:结构。我们的检测网络包含24个卷积层,和2个全连接层。交替的1×1卷积核进行跨通道融合信息。我们对ImageNet分类任务数据集进行半分辨率(222×224)的训练预处理,然后再将检测分辨率翻倍。

 

 

我们的最后一层全连接层预测目标分类概率和包围框座标。我们通过图像宽高的归一化处理对包围框的宽高进行规范,使得他们的变化区间在01之间。我们将包围框的xy座标参数化为针对栅格单元位置的偏移量,因此它们的值域也在01之间。

我们在最后一层网络使用了一个线性激活函数,网络的其他层均使用以下的leaky ReLU激活函数:

x=x,               if x >00.1x,           otherwise           (2)

我们对模型输出的平方和误差进行优化。为什么使用平方和误差?它具有易于优化的特点。但是,它并不能满足我们最大化平均精度的目标。原因是该函数的定位误差与分类误差占比相等,这样的结果可能并不理想。而且,在每幅图像中,许多栅格单元并不包含目标对象,这些栅格的置信度得分也被推向零,通常会压倒包含目标对象栅格单元中的梯度。这样,很可能导致模型不稳定,也会造成早期训练的发散。

为了解决这个问题,我们增加了包围框座标预测损失在总损失中的比重,并且减少了不含目标栅格置信度得分预测损失的占比。我们使用了两个参数,λcoordλnoobj去实现这个设想。我们设置λcoord=5λnoobj=.5

平方和误差也等权了在大框和小框中的误差。我们的误差度量应该反映出在小框中的偏差敏感度应该比在大框中的大。为了部分解决这个问题,我们预测包围框的宽度和高度的平方根,而不是直接预测宽度和高度。

YOLO对于每个栅格单元预测多个包围框。在训练阶段,对于每个目标我们只需要一个包围框预测器负责。我们指派一个预测器依据预测值与真实值之间最高的IOU值来“负责”预测出目标对象。这种方式形成了包围框预测器之间的精确分工,使每个预测器在预测尺寸、纵横比或目标类别等方面会有更好的效果,从而提高整体的目标召回率。

在训练阶段,我们优化了以下多个部分的损失函数:

 

其中,1iobj表示是否有目标中心落入栅格i中,1ijobj表示第i个栅格中的第j个包围框的预测器“负责”预测该目标对象。

注意,如果在栅格单元中存在目标对象,则损失函数仅考虑分类误差(因此,在前面讨论了条件类别概率)。如果这个预测器“负责”预测目标真实的包围框(和栅格单元中的任意预测器都有最高的IOU值),损失函数仅考虑预测座标的损失。

我们在PASCAL VOC20072012的训练验证数据集上对网络训练了135epochs。当在VOC2012数据集进行测试时,我们也将VOC07测试集放入训练集。在整个训练过程里,我们设定的批次参数为64,冲量为0.9,权值的衰减率为0.0005

我们的学习率调整时间表如下:在第一个epochs,我们慢慢将学习率从提高到。如果我们以较高的学习率开始训练,模型由于不稳定的梯度导致训练发散。我们继续使用学习率训练75epochs,之后学习率降到训练30epochs,最后将学习降到再训练30epochs

为了避免训练产生过拟合,我们使用dropout方法和常用的数据增强方法。在第一个连接层后设置dropout层,将rate设置为0.5,减少层之间的联合性[18]。对于数据增强,我们对约20%的原始图像的尺寸进行随机缩放和平移。我们还在HSV颜色空间上随机以1.5倍因子调整图像的曝光度和饱和度。

2. 3推论

就像在训练阶段,针对测试图像的检测只需要使用一个网络完成评估。在PASCAL VOC数据集上,网络对每幅图像预测98个包围框和每个框的类别概率。YOLO在测试时速度非常快,因为它只需要单个网络进行评估,并不像基于分类器的方法。

栅格的设计在包围框预测中增加了空间多样性。通常,一个目标落入某个栅格单元是十分清晰的,并且网络只对每个目标预测一个包围框。但是,一些较大的目标或者目标在多个栅格的边界处,会由多个栅格很好的检测定位出来。非极大值抑制可以用来解决这种重复检测问题。虽然对于R-CNNDPM算法它并不是关键的性能影响,但是非极大值抑制方法可以提高2-3%mAP值。

2. 4 YOLO的局限性

YOLO对于包围框的预测具有极强的空间约束,因为每个栅格只能预测两个框,并且只能包含一个类别。这种空间约束限制了模型预测网格附近的其他目标的数量。我们的模型在检测图像中出现成群的小物体时(比如鸟群),会出现物体之间的竞争。

由于我们的模型在数据中学会预测包围框,所以很难将包围框的预测推广到新的、不同长宽比或不同结构的目标。我们的模型还使用相对粗糙的特征来预测包围框,这是由于我们的网络结构对输入图像具有多个下采样层。

最后,当训练近似检测性能的损失函数时,我们的损失函数处理小包围框和大包围框的误差占比是一样的。一个大包围框中出现一个小错误通常是可以接受的,但是对于一个小包围中出现一个小错误对IOU的影响是巨大的。我们的主要误差来源仍是目标定位错误。

3 对比其他检测系统

目标检测是计算机视觉领域中的一个核心问题。其检测过程通常是从输入图像中提取一组鲁棒的特征开始(Haar[25], SIFT[23], HOG[4], 卷积特征[6])。然后,分类器[35,21,13,10]或定位器[1,31]用于识别特征空间中的目标物体。这些分类器或定位器要么以滑动窗口的方式在整幅图像上运行,要么在图像区域[34,15,38]的一些子集上运行。我们使用几个顶级的检测框架与YOLO检测系统进行对比,突出展示它们的相同点与不同点。

可变形部件模型。可变形部件模型(DPM)使用滑动窗口方法完成目标检测任务[10]DPM使用不相关联的过程来提取静态特征、分类区域以及对得分较高的区域预测包围框等。我们的系统用一个卷积神经网络代替这些不同的过程。该网络同时进行特征提取、包围框预测、非极大值抑制和上下文信息推理。替代静态特征提取后,我们的网络经过在线训练提取的特征,在优化之后可以更好的用于检测任务。我们的统一架构比DPM方法产生速度更快、精度更高的模型。

R-CNNR-CNN及它的变体系统均使用区域建议方法而不是用滑动窗口在图像中寻找目标对象。其具体过程为:Selective Search方法[34]会生成潜在的包围框,卷积网络再进行特征提取,SVM对包围框进行评分,线性模型微调包围框,非极大值抑制方法消除重复的包围框。对于这个复杂的过程中的每一个部分都需要十分精确地调试,并且该系统产生结果的速度十分缓慢,在测试时每张图像需要花费超过40[14]

YOLOR-CNN有一些相同之处。YOLO中的每一个栅格单元需要给出潜在的包围框,并使用卷积神经网络对这些包围框进行评分。但是,我们的系统将空间约束放在栅格单元的建议上,这样有助于减少对同一个目标对象的重复检测。我们的系统提出了更少的包围框,相比于Selective Search方法提出的约2000个包围框,我们对每幅图像仅提出98个建议包围框。最后,我们的系统将这些单独的部分整合成单一的、经过优化后的模型。

其他快速检测器。Fast Faster R-CNN方法放弃Selective Search方法,通过共享计算以及使用神经网络提出区域建议方式提升R-CNN框架的速度[14][27]。虽然它们比R-CNN方法有更快的速度和更高的精度,但是仍然不符合实时性的要求。

许多研究工作集中在提升DPM检测过程的速度[30][37][5]。他们加速HOG的计算,使用级联的方式并将计算放在GPU上进行。但是,仅仅只有30HzDPM[30]真实的完成实时性运行。

YOLO本身设计的速度是极快的,它并没有试图去优化较大的传统检测过程中各个独立的部分,而且完全脱离整个过程。

对於单类的检测任务,如人和人脸,YOLO检测器可以进行很好的优化,由于这些任务特征的变化较少[36]YOLO是一种通用的检测器,它可以完成同时检测多种物体。

Deep MultiBox。与R-CNN方法不同,Szegedy等人通过训练卷积神经网络预测兴趣区域[8]代替Selective Search方法。MultiBox可以用单类预测替换置信度预测的方式执行单个目标的检测。但是,MultiBox不能执行通用的目标检测,因为它只是实现了一个复杂检测过程中的一部分,还需要进一步对图像块分类。YOLOMultiBox方法都使用一个卷积网络完成一幅图像的包围框预测,但是YOLO是一个完整的检测系统。

OverFeatSermanel等人通过一个卷积神经网络训练出目标定位器,并通过定位器去执行目标检测[31]OverFeat更有效地执行滑动窗口检测方法,但是它仍然是一个各部分不相关联的系统。OverFeat对定位精度进行了优化,并没有提升检测精度。该方法与DPM类似,定位器都是在预测时只能看到局部的图像信息。OverFeat无法解析整幅图像信息,因此使用后处理来产生相干检测显得十分重要。

MultiGrasp。我们的工作设计类似于Redmon等人[26]在目标抓取检测方面的工作。我们的栅格预测包围框的方法来自于MultiGrasp系统完成抓取任务。但是,抓取检测要比目标检测任务简单得多。MultiGrasp只需要从包含单一目标图像中预测单个可抓取区域。它并不需要去估计物体尺寸、物体位置、物体边界信息及物体的分类,只是寻找一个合适的可抓取区域。YOLO需要预测一幅图像中多个目标的包围框和类别概率。

4 实验

首先,我们将YOLO与其他使用PASCAL VOC数据集的实时检测系统进行效果对比。为了更加清晰的理解YOLOR-CNN系列算法之间的差异,我们对YOLOFast R-CNNR-CNN[14]系列算法性能最高的版本之一)在VOC2007数据集上所产生的误差结果进行分析。基于实验结果中不同的误差分布,我们证明YOLO可以重新调整Fast R-CNN检测,并减少背景误检的错误率,从而显著地提高整体检测性能。我们也给出了在VOC2012上的检测实验结果,并与现今顶尖的目标检测算法比较检测性能。最后,我们证明,在两个艺术品数据集上,YOLO比其他的检测器有更好的效果,即YOLO能更好的推广到新的领域。

4. 1 对比其他实时系统

许多的目标检测研究主要集中在如何加快标准的检测过程[5][37][30][14][17][27]。但是,只有Sadeghi等人真正的实现了一个实时运行的检测系统(每秒30帧或更好)[30]。我们将YOLO与他们在GPU上实现DPM的方法进行对比,其中运行频率为30Hz100Hz。虽然其他的检测方法并没有达到实时性的要求,我们依然比较YOLO与他们的相关mAP值与速度值,以检查在目标检测系统中可用精度与速度性能的折中。

Fast YOLO 是在PASCAL数据集中最快的目标检测方法;据我们所知,它是现存的速度最快的目标检测器。它的mAP值为52.7%。这已经超过先前实时检测系统精度的两倍以上。YOLOmAP值提升到63.7%时,仍然能够保持实时的性能。

我们也使用VGG16模型训练YOLO算法。这个模型的精度更高,当然检测速度也明显的比YOLO慢。这个模型与其他基于VGG16的检测系统相比仍然是一个有效的改进,但是由于它达不到检测实时性的要求,所以本文的其他内容都集中在我们更快的检测模型。

Fastest DPM方法在不丢失大量mAP值的情况下,有效地加速了DPM算法,但是它仍然比实时性要求的速度低了两倍[37]。同时,相比于神经网络算法,DPM方法的检测精度相对较低。

R-CNN去除R,用静态包围框建议替代Selective Search方法[20]。虽然这种改变使得检测速度比R-CNN快很多,但是它仍缺乏实时性,并且由于没有好的建议区域使得其准确度有较大降低。

1:在PASCAL VOC2007数据集上的实时检测系统。对比快速检测器的性能和速度。Fast YOLO是用于PASCAL VOC2007数据集上的最快的检测器,并且它的精度是任何实时检测器的两倍。YOLOmAP值比它快速版本高10个百分点,同时仍保持很好的实时性速度。

Fast R-CNNR-CNN的分类阶段进行了提速,但是它仍然依赖于Selective Search方法,每幅图大约需要2秒的时间来生成包围框建议。因此,它具有较高的mAP值,但是检测速度仅为0.5FPS,这也远远没有达到实时性要求。

最近的Faster R-CNN方法使用神经网络取代Selective Search方法提出包围框建议,类似于Szegedy等人的研究[8]。在我们的测试实验中,他们的最精确模型的检测速度可以达到7FPS,而较小的、准确度较低的模型检测速度可以达到18FPSFaster R-CNNVGG16版本在mAP值上比YOLO高了10个百分点,但是速度上慢了6倍。Zeiler-Fergus修改版Faster-CNN在检测速度上比YOLO慢了2.5倍,但是精度比YOLO低很多。

4. 2 VOC2007数据集误差分析

为了进一步研究分析YOLO与最先进的检测器之间的差距,我们查看了VOC2007数据集上的详细检测结果。我们将YOLOFast R-CNN进行对比,因为Fast R-CNNPASCAL数据集上性能最好的检测器之一,并且它的检测结果是公开的。

我们使用Hoiem等人[19]的方法和工具。对于每个类的测试阶段,我们查看分类器预测的Top-N结果。每个预测结果是正确的,或者是根据错误的类别进行分类:

正确:正确的类别和IOU>0.5

定位:正确的类别和0.1<IOU<0.5

近似:类别是相似的和IOU>0.1

其他:错误的类别和IOU>0.1

背景:任意一个目标的IOU<0.1

4表示在数据集20个类别中每个错误类型的占比。

4;误差分析:Fast R-CNN vs. YOLO。图标显示在N个不同类别检测中,定位误差和背景误差的百分比。(N=#表示目标在哪个类别中)

YOLO试图正确的定位每个目标物体。但其定位误差所占比重比YOLO其他类型误差之和还要多。Fast R-CNN定位误差比YOLO小很多,但是其背景误差比YOLO大很多。其检测结果中有13.6%呈现假阳性(包围框中未包含目标物体却误报为目标)。Fast R-CNN对目标的误检率是YOLO3倍。

4. 3 Fast R-CNN和YOLO结合

YOLOFast R-CNN在背景误检率上更低。通过使用YOLO消除Fast R-CNN的背景误检,我们的检测器可以得到显著的性能提升。对于R-CNN预测的每个包围框,我们检查YOLO是否也预测了一个类似的包围框。如果的确如此,我们会根据YOLO的预测概率与两个框之间的重叠率来提高该预测的得分。

最佳的Fast R-CNN模型在VOC2007数据集上实现了71.8%mAP值。当在结合YOLO后,mAP值增加了3.2%达到75.0%。我也试图结合最好的Fast R-CNN和几个其他版本的Fast R-CNN。这些结合的模型的测试mAP值均有0.3%0.6%的不同提高,具体见表2

2:在VOC2007数据集上的模型结合实验。我们对各种模型进行结合得到最佳的Fast R-CNN版本,其他版本的Fast R-CNN结合模型仅能提供较小的提升,而YOLO则提供了显著的性能提升。

结合YOLO所带来的性能提升并不是模型集成的结果,因为集成不同版本的Fast R-CNN对性能并没有什么实质性的提升。更确切地说,正是因为YOLO在测试阶段出现各种各样的错误,所以它在提高Fast R-CNN的性能方面十分有效。

不幸的是,这种结合并没有得到YOLO的速度优势,因为我们分开运行每一个模型,然后再组合结果。但是,由于YOLO的速度十分快,所以它不增加Fast R-CNN的计算时间成本。

4. 4 VOC2012结果

VOC2012测试集上,YOLOmAP值为57.9%。这要低于比现有算法的准确度,更接近使用VGG16模型的原R-CNN算法,具体见表3。我们的系统在检测小尺寸目标时存在相邻目标之间竞争的问题。在瓶子、羊、电视/监视器等类别上,YOLO的分类得分比R-CNNFeature Edit低了8-10%。但是,在某些类别上,如毛和火车,YOLO有很高的性能表现。

我们的组合Fast R-CNN+YOLO模型是性能最高的目标检测方法。Fast R-CNNYOLO结合后可以有2.3%的性能提升,使其在公开的排行榜上提高了5位。

 

 

3PASCAL VOC2012数据集结果排行榜。YOLO2015116日的comp4(允许使用外部数据)公开排行榜进行对比。对各种检测方法,展示出它们的平均位置精度和平均分类精度。YOLO是唯一实时检测器。Fast R-CNN+YOLO是得分第四高的检测方法,对Fast R-CNN方法有2.3%的精度提升。

 

 

4. 5 抽象性:艺术品中的人体检测

用于目标检测的学术数据集是从同一分布中提取的训练和测试集。在实际应用中,很难预测所有可能

出现例子,并且测试数据可能与系统之前所看到的数据不同[3]。我们在Picasso数据集和People-Art数据集上将YOLO与其他使用该数据集的检测系统进行对比。这两个数据集均是用于测试艺术品上的人物检测。

5显示YOLO与其他检测方法的性能对比。为了提供参考,我们给出了所有模型在VOC2007训练集上的人物类检测的AP值。Picasso模型在VOC2012数据集上进行训练,而在People-ArtVOC2010数据集上训练。

R-CNNVOC2007数据集上有较高的AP值。然而,当其应用在艺术品上时,R-CNN算法的AP值会有大幅的下降。R-CNN使用Selective Search方法对自然图像进行选择包围框,而R-CNN分类器只能看到较小的区域,所以其需要更好的包围框建议。

DPM应用在艺术品检测时可以保持比较好的AP值。之前的研究理论认为,DPM之所以有较好的表现,是因为它具有极好的目标形状和布局空间表征模型。虽然DPM不会像R-CNN出现退化的问题,但是它的起始AP值较低。

YOLOVOC2007数据集上有良好的性能表现,在应用在艺术品时,它的AP下降率也低于其他方法。跟DPM相似,YOLO建立目标的尺寸和形状模型,以及目标之间的关联和目标经常出现的位置。艺术品和自然图像在像素级上有极大不同,但是它们在目标的尺寸和形状方面有相似点,因此YOLO仍然可以预测较好的包围框完成检测。

5 现实环境实时检测

YOLO是一个快速、精确的目标检测器,这也让它成为计算机视觉应用的理想选择。我们将YOLO与网络摄像头连接,并验证它实时性的表现,包括从摄像头获取图像以及检测显示的时间。

最终的系统是交互式和参与式。在YOLO独立处理图像时,当连接到网络摄像机时,它与跟踪系统一样工作,即在物体移动和外形变化时检测它们。系统和源码的演示可以在我们的项目网站中找到:http://pjreddie.com/yolo/

6 总结

我们提出YOLO,一个统一的目标检测模型。我们的模型构建简洁,可以直接用全图训练。与其他基于分类器的方法不同,YOLO被训练在一个直接对应检测性能的损失函数上,并且整个模型使用联合训练方式。

Fast YOLO在本文中是一个快速的通用目标检测器,它推动了实时检测目标的最新发展。YOLO也可以很好的泛化到新的领域,使得它成为依赖快速、鲁棒的目标检测器应用的理想选择。

 

 

 

aPicasso数据集P-R曲线                       bVOC2007数据集、PicassoPeople-Art数据集的定量结果,Picasso数据集评估包括APF1得分。:

5PicassoPeople-Art数据集的泛化结果。

 

6:定性结果。YOLO使用来自于互联网的艺术品和自然图像样例进行检测的结果示例。虽然它将一个人认成一架飞机,但是大部分检测结果是准确的。

 

 

 

 

  1. M. B. Blaschko and C. H. Lampert. Learning to localize objects with structured output regression. In Computer Vision–ECCV 2008, pages 2–15. Springer, 2008.
  2. L. Bourdev and J. Malik. Poselets: Body part detectors trained using 3d human pose annotations. In International Conference on Computer Vision (ICCV), 2009.
  3. H. Cai, Q. Wu, T. Corradi, and P. Hall. The crossdepiction problem: Computer vision algorithms for recognizing objects in artwork and in photographs. arXiv preprintarXiv:1505.00110, 2015.
  4. N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In Computer Vision and Pattern Recognition, 2005. CVPR 2005.IEEE Computer Society Conference on, volume 1, pages 886–893. IEEE, 2005.
  5. T. Dean, M. Ruzon, M. Segal, J. Shlens, S. Vijayanarasimhan, J. Yagnik, et al. Fast, accurate detection of 100,000 object classes on a single machine. In Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, pages 1814–1821. IEEE, 2013.
  6. J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, and T. Darrell. Decaf: A deep convolutional activation feature for generic visual recognition. arXiv preprintarXiv:1310.1531, 2013.
  7. J. Dong, Q. Chen, S. Yan, and A. Yuille. Towards unified object detection and semantic segmentation. In Computer Vision–ECCV 2014, pages 299–314. Springer, 2014.
  8. D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 2155–2162. IEEE, 2014.
  9. M. Everingham, S. M. A. Eslami, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The pascal visual object classes challenge: A retrospective. International Journal of Computer Vision, 111(1):98–136, Jan. 2015.
  10. P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part based models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(9):1627–1645, 2010.
  11. S. Gidaris and N. Komodakis. Object detection via a multiregion & semantic segmentation-aware CNN model. CoRR, abs/1505.01749, 2015.
  12. S. Ginosar, D. Haas, T. Brown, and J. Malik. Detecting people in cubist art. In Computer Vision-ECCV 2014Workshops, pages 101–116. Springer, 2014.
  13. R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 580–587. IEEE,2014.
  14. R. B. Girshick. Fast R-CNN. CoRR, abs/1504.08083, 2015.
  15. S. Gould, T. Gao, and D. Koller. Region-based segmentation and object detection. In Advances in neural information processing systems, pages 655–663, 2009.
  16. B. Hariharan, P. Arbel´aez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. In Computer Vision ECCV 2014, pages 297–312. Springer, 2014.
  17. K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. arXiv preprint arXiv:1406.4729, 2014.
  18. G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprintarXiv:1207.0580, 2012.
  19. D. Hoiem, Y. Chodpathumwan, and Q. Dai. Diagnosing error in object detectors. In Computer Vision–ECCV 2012, pages 340–353. Springer, 2012.
  20. K. Lenc and A. Vedaldi. R-cnn minus r. arXiv preprintarXiv:1506.06981, 2015.
  21. R. Lienhart and J. Maydt. An extended set of haar-like features for rapid object detection. In Image Processing. 2002. Proceedings. 2002 International Conference on, volume 1,pages I–900. IEEE, 2002.
  22. M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs/1312.4400, 2013.
  23. D. G. Lowe. Object recognition from local scale-invariant features. In Computer vision, 1999. The proceedings of the seventh IEEE international conference on, volume 2, pages 1150–1157. Ieee, 1999.
  24. D. Mishkin. Models accuracy on imagenet 2012 val. https://github.com/BVLC/caffe/wiki/Models-accuracy-on-ImageNet-2012-val. Accessed:2015-10-2.
  25. C. P. Papageorgiou, M. Oren, and T. Poggio. A general framework for object detection. In Computer vision, 1998. sixth international conference on, pages 555–562. IEEE,1998.
  26. J. Redmon and A. Angelova. Real-time grasp detection using convolutional neural networks. CoRR, abs/1412.3128, 2014.
  27. S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv preprint arXiv:1506.01497, 2015.
  28. S. Ren, K. He, R. B. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps. CoRR, abs/1504.06066, 2015.
  29. O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein,A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (IJCV), 2015.
  30. M. A. Sadeghi and D. Forsyth. 30hz object detection with dpm v5. In Computer Vision–ECCV 2014, pages 65–79.Springer, 2014.
  31. P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. CoRR, abs/1312.6229, 2013.
  32. Z. Shen and X. Xue. Do more dropouts in pool5 feature maps for better object detection. arXiv preprint arXiv:1409.6911,2014.
  33. C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. CoRR, abs/1409.4842,2014.
  34. J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. International journal of computer vision, 104(2):154–171, 2013.
  35. P. Viola and M. Jones. Robust real-time object detection. International Journal of Computer Vision, 4:34–47, 2001.
  36. P. Viola and M. J. Jones. Robust real-time face detection. International journal of computer vision, 57(2):137–154,2004.
  37. J. Yan, Z. Lei, L. Wen, and S. Z. Li. The fastest deformable part model for object detection. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 2497–2504. IEEE, 2014.

38. C. L. Zitnick and P. Doll´ar. Edge boxes: Locating object proposals from edges. In Computer Vision–ECCV 2014, pages 391–405. Springer, 2014.

 

 

 

 

有一些公式格式问题,稍后再修改

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章