关于深度学习在目标跟踪领域的学习心得

关于深度学习在目标跟踪领域的学习心得

目标跟踪算法可以被分为产生式(generative model)和判别式(discriminative model)两大类别,产生式方法运用生成模型描述目标的表观特征,之后通过搜索候选目标来最小化重构误差;判别式方法通过训练分类器来区分目标和背景。在现实情况中,由于目标跟踪只提供第一帧的bounding box,且具有不确定性,在遮挡、旋转、光照变换等情况下易产生目标对象漂移、跟踪失败的情况。我们可以利用深度模型对大量标注或未标注训练数据进行预训练并学习,提高目标跟踪的准确率和实时性(现行大部分深度学习目标跟踪方法都归属于判别式框架)。现将了解到的主要实现方法归纳如下:

 

一、利用辅助图片数据预训练深度模型,在线跟踪时微调

代表:①Learning a Deep Compact Image Representation for Visual Tracking NIPS2013

②Transferring Rich Feature Hierarchies for Robust Visual Tracking arXiv2015

虽然解决了跟踪过程中训练样本不足的问题,但是辅助图片是无关联的,使用更贴合跟踪实质的关联数据会是更好的选择。

 

二、利用现有大规模分类数据集预训练深度模型

CNN分类网络提取特征

代表:①Visual Tracking with Fully Convolutional Networks ICCV2015

FCNT通过对大规模分类数据集训练出的CNN网络获得目标的特征表示,并可以通过不同层输出的特征图谱进行分析,利用集成学习来弥补不同层上的不足,达到一个1+1>>2的效果。

      ②Hierarchical Convolutional Features for Visual Tracking ICCV2015

同样对深度特征进行提取,发现在高层特征主要反映目标的语义特性,对目标的表观变换比较鲁棒,而在低层特征保存了更多细粒度的空间特性,对跟踪目标的精确定位更有效。同时利用相关滤波确定最终的bounding box.

以上两种实现都是利用CNN网络提取特征,在此基础上进行加工得到更好效果的案例。但是分类任务以相似的物体为一类,而目标追踪只需要追踪一类物体中的一个,需要区别其他的同类物体,所以重点在于寻找方法融合多层特征来达到理想的效果。

 

 

利用递归神经网络进行目标跟踪

代表:①Recurrently Target-Attending Tracking CVPR2016

利用多方向递归神经网络来建模和挖掘对整体跟踪有用的可靠目标部分,最终解决预测误差累积和传播导致的跟踪漂移问题。利用递归结构,使得每个分块的输出值都受到其他关联分块的影响,避免单个方向的影响,同时可以置权,比仅仅考虑当前位置的准确度更高。

 

利用循环神经网络进行目标跟踪

代表:①Structure-Aware Network for Visual Tracking arXiv2016

循环神经网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出,使信息能够持续保存。

②Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking arXiv2016

作为特殊的递归神经网络,可以学习长期依赖信息,具有更加良好的表现性能。

 

 

三、利用跟踪序列预训练

代表作品:①Learning Multi-Domain Convolutional Neural Networks for Visual Tracking CVPR2016

MDNet直接用跟踪视频预训练CNN来获得目标表示能力,将网络分为共享层与domain-specific层两部分,经过训练,在共享层中获得对序列共有特征的表达能力。

           ②Siamese Instance Search for Tracking  CVPR2016

使用有标注了association的视频数据集作为训练数据,通过相似性学习的方式进行目标跟踪的孪生网络。其最大的特点是,该方式训练好的网络直接在跟踪上使用,不需要更新。网络同样采用了不同层的特征融合和边框回归来提升目标跟踪的性能。

个人认为根据视频序列来进行目标跟踪效果会更好,从直观上理解,目标跟踪应该是对同一物体的辨别,而不是一类物体,应该更看重于一个物体的内在变化,而从视频序列中提取共同特征能够较好的解决这个问题。

 

就以上所学来看,从卷积神经网络到长短期神经网络的使用,从辅助图片到视频序列的训练,深度学习在目标跟踪方面有非常好的应用前景。但是,现存的问题主要在于实时性欠佳,而且在较为复杂的视频序列中鲁棒性仍然不够,期待更为高精度、高鲁棒性、高实时性的算法!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章