MOSSE(Visual Object Tracking using Adaptive Correlation Filters)论文详解

摘要

虽然不常用,但相关滤波器可以通过旋转,遮挡和其他干扰来跟踪复杂物体,其速度是当前最先进技术的20倍以上。最旧和最简单的相关过滤器使用简单模板,并且在应用跟踪时通常会失败。诸如ASEF和UMACE等方法表现优秀,但他们的训练的需求不太适合跟踪。视觉跟踪需要从单个帧训练强大的滤波器,并在目标对象的外观发生变化时动态调整。

本文提出了一种新型的相关滤波器,即最小平方误差输出和(MOSSE)滤波器,它在使用单帧初始化时产生稳定的相关滤波器。对于光照,缩放,姿势和非刚性变形的变化时,基于MOSSE滤波器的跟踪器具有鲁棒性,同时以669帧的速度运行。通过计算峰值与旁瓣比来判断目标是否被遮挡,当目标遮挡后又重新出现时,跟踪器可以暂停并恢复它停止的位置

注意:本文包含CVPR 2010中排除的其他数字和内容,以满足长度要求。

 1 前言

视觉跟踪在视频处理中有许多实际应用。当目标位于视频的一帧中时,在后续帧中跟踪该对象通常很有用。成功跟踪目标的每个帧会提供有关目标的信息和动作等信息。由于跟踪比检测更容易,因此跟踪算法可以在每个帧上运行对象检测器上使用更少的计算资源。

视觉跟踪近年来受到了很多关注。已经提出了许多强大的跟踪策略,目标通过复杂的运动改变了外观和跟踪目标。例子包括:增量视觉跟踪(IVT)[17],基于鲁棒碎片的跟踪(FragTrack)[1],基于图像的判别学习(GBDL)[19]和多实例学习(MILTrack)[2]。虽然有效,但这些算法并不简单。它们通常包括复杂的外观模型或复杂的优化算法,因此很难与许多现代相机产生的每秒25到30帧相持平(见表1)。

在本文中,我们研究了一种更简单的跟踪策略。目标外观由自适应相关滤波器进行建模训练,并且通过卷积进行测试跟踪。用于创建滤波器的朴素方法(例如,从图像中裁剪)会为目标生成峰值,但也会错误地响应背景,因此,它们对目标外观的变化鲁棒性较差,在挑战性跟踪问题上失败。平均合成精确滤波器(ASEF),无约束最小平均相关能量(UMACE)和平方误差的最小输出和(MOSSE)(本文介绍)产生的滤波器对于目标外观变化鲁棒性更好并且能很好地区分目标和背景。如图2所示,作者提出的方法转换为更少的漂移和更少的下降轨道,变成了一个更强的峰值。传统上,ASEF和UMACE滤波器离线训练数据,将其用于物体检测或目标识别。在本论文中,我们变成了在线训练数据,并采用自适应系统进行视觉跟踪。结果是在保证最先进的性能基础上,还保留了基础相关性方法的大部分速度和简单性。

该方法简单,并在旋转,缩放,光照和部分遮挡的变化下,基于改进的ASEF,UMACE或MOSSE滤波器的跟踪表现良好(参见图1)。测量相关峰值强度的峰值与旁瓣比(PSR)可用于检测遮挡或跟踪失败的情况,从而停止在线更新,当对象以相似外观重新出现则重新获取信息。更一般地说,这些高级相关滤波器实现的性能与前面提到的更复杂的跟踪器一致,但是,作者提出的这种方法速度提高了20多倍,每秒可处理669帧(见表1)。

本文的其余部分安排如下。第2节回顾了相关滤波技术,第3节介绍了MOSSE滤波器以及如何使用它来创建基于跟踪对象的鲁棒滤波器,第4节介绍了来自[17]的七个视频序列的实验结果,最后,第5节将重述本文的主要发现。 

2 回顾

在20世纪80年代和90年代,与相关滤波器相关的变体相继产生,包括合成判别函数(SDF)[7,6],最小方差合成判别函数(MVSDF)[9],最小平均相关能量(MACE)[11],最优权衡滤波器(OTF)[16]和最小平方误差综合判别函数(MSESDF)[10]。这些滤波器在具有不同外观和强制硬约束的目标对象的示例上进行训练,使得滤波器总是产生相同高度的峰值。最相关的是MACE,它产生尖峰和高PSR

在[12]中,发现基于SDF(合成判别函数)的滤波器(如MACE)的硬约束导致了失真容限问题。解决方案是消除硬约束,而不是要求滤波器产生高平均相关响应,这种称为最大平均相关高度(MACH)的新型“无约束”相关滤波器导致称为UMACE(无约束MACE)的MACE变体。

一种称为ASEF [3]的新型相关滤波器引入了一种调整特定任务滤波器的方法。早期方法只指定单个峰值,ASEF提出每个训练图像的整个相关输出。 ASEF在眼睛定位[3]和行人检测[4]方面表现良好。但在这两项研究中,ASEF都需要大量的训练图像,这使得视觉跟踪速度太慢本文通过引入适用于视觉跟踪的ASEF的正则化变体来降低此数据要求。

3 基于跟踪的相关滤波

基于跟踪的滤波器原理为,用示例图像上训练的滤波器来建立目标外观模型。最初基于以第一帧中的目标为中心的小跟踪窗口来选择目标,在此之后,跟踪和滤波训练将同时进行,通过在下一帧中的搜索块上关联之前的滤波器来跟踪目标,该帧中输出的最大值的位置表示目标的新位置。然后基于该新位置进行在线更新。

为了创建快速跟踪器,在傅立叶域上进行快速傅立叶变换(FFT)[15]中计算相关性。首先,计算输入图像的2D傅立叶变换:F=F(f)和滤波器:H=F(h)。卷积定理指出相关性计算傅里叶域中的元素乘法等同。使用⊙符号表示逐元素乘法而*表示复共轭,相关性计算采用以下形式:G=F\odot H^{*}(1)。使用逆FFT将相关计算的输出变换回空间域。此过程中的瓶颈是计算正向和反向FFT,以便整个过程的上限时间(计算复杂度)为O(PlogP),其中P是跟踪图像块的像素数。

在本节中,我们将讨论基于跟踪的滤波器的组成部分: 3.1节讨论在跟踪窗口上进行的预处理模块;3.2节介绍MOSSE滤波器,它是从少量图像构建稳定相关滤波器的改进方法;3.3节介绍了如何使用正则化计算来生成更稳定的UMACE和ASEF滤波器。 3.4节讨论了用于在线更新过滤器的简单策略。

3.1 预处理模块

FFT卷积算法的一个问题是图像和滤波器被映射到环面的拓扑结构。 换句话说,它将图像的左边缘连接到右边缘,并将顶部连接到底部。在卷积时,图像旋转通过环形空间而不是像在空间域中那样进行平移。 人为地连接图像的边界引入了影响相关输出的伪像。

遵循[3]中概述的预处理步骤可以减少这种影响。 首先,使用对数函数变换像素值,这有助于低对比度照明情况。 将像素值归一化为具有0.0的平均值和1.0的范数。 最后,图像乘以余弦窗口,该窗口逐渐将边缘附近的像素值减小到零。 这也有利于它将更多的重点放在目标的中心附近。

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章