跟踪中的主要深度学习模型介绍(一)

深度学习的发展主要经历了三个重要的时期,从前期深度学习的前身神经网络的提出后,深度学习发展缓慢;到中期深度学习的迅速发展,取得很多惊人成果;再到深度学习的繁盛时期,深度学习逐渐成为很多领域的热门研究问题。

前期(1970年~2006年):BP神经网络的提出后,由于当时的数据不易获取、梯度弥散问题、优化目标函数的求解过度依赖于初值选取、硬件对多大量样本的计算能力不足等问题,前期大部分学者并不看好深度神经网络算法,更学者转而研究浅层学习方法(如随机森林、支持向量机等)。  

中期(2006年~2011年): 2006年深度学习领域取得了突破进展,Hinton教授提出无监督深度置信网络的训练方法,使得通过深度学习算法实现人工智能成为可能,各大领域学者又开始对深度学习充满信心。

繁盛期(2012年~至今):2012年,Hinton教授带领团队继续在深度学习上取得重大突破,其在ImageNet图像分类大赛上以准确率超过第二名10%的成绩[ ],将深度学习的发展潜力展现出来的同时,吸引了越来越的学者、企业争相进入深度学习研究领域。

直至今日,卷积神经网络、堆栈神经网络等深度学习模型,不断结合迁移学习、对抗学习以及强化学习等方法取,在图像识别、视觉跟踪等邻域中取得了极大成就。接下来介绍几个常用于目标跟踪的深度模型。

2.1 卷积神经网络(CNN):

卷积神经网是由卷积、非线性变换、下采样和批量归一化等四种基础模块周期性交替进行组成,其结构采用局部连接、权值共享的方式,即只有某个局部区域内的刺激才能激活神经元,这样大大降低了网络模型参数的同时,对训练数据量的依赖性也降低。

卷积神经网络的基本结构图如下图 2 所示,卷积层利用卷积核对输入图片进行处理,可以学习到鲁棒性较高的特征;下采样层降低图像分辨率,减少计算量的同时刻画平移不变性,约减下一层输入维度减少过拟合风险;非线性变换即激励层,通过激活函数提高模型的非线性刻画能力,从而提高网络表征高层中语义特性的能力;批量归一化操作,部分网络会应用其做优化操作,减少训练过程中的不稳定性,加快收敛速度;误差的反向传播算法,根据实际输出与期望输出之间的差来反向传播计算每一层上的误差传播项,结合每一层输出关于该层参数的偏导数,实现每一层参数更新,进行有监督的学习与训练。

图2  卷积神经网络基本框架示意

通过分析可知,卷积神经网络具有如下优势:1.利用卷积核对输入图片进行处理,可以学习到鲁棒性较高的特征;2.下采样层刻画平移不变性,同时防止过拟合风险;3.通过激活函数提高模型的非线性刻画能力,从而提高网络表征高层中语义特性的能力。

近几年,研究表明归一化层几乎对最后结果帮助非常小,所以多数时候就摒弃了归一化操作;目前深度神经网络向着更深、更大规模的方向发展,但是训练消耗大量时间。但与早期间的深度前馈神经网络相比,卷积神经网络局部连接与权值共享策略,需要估计的参数更少,使它成为非常有潜力的深度学习模型。

2.2深度堆栈神经网络(SAE):

深度堆栈神经网络由多个自编码器堆叠构成,其核心思想是保持输入与输出尽可能一致的情况下,实现无监督方式下的隐层特征提取图参数学习,如下图 3 所示为含有两个隐藏层的深度堆栈网络。单个自编码器由输入层L1、隐藏层L2和输出层L3构成,其中L2层也称编码层,L3层也称解码层,L1层输入L2层进行编码,L3再对L2进行解码,即输入与输出相等。

图 3 深度堆栈神经网络(2层隐藏层)

根据输入数据即为期望输出的原则,第一个自编码器学习得到输入与编码特征(隐藏层1)的拓扑结构,进一步将编码特征(隐藏层1)作为新的输入,利用同样的方式得到对应的编码特征(隐藏层2),编码特征可以视为输入的一种合理表示,随着层级的加深,编码特征愈加抽象、具有整体特性。

堆栈神经网络有如下优势:1.自编码网络的提出是为了预训练网络参数,给网络参数一个合适的初值;2.现实生活中,那些打好标签的数据其实是很少的,自编码网络提供了一种无监督聚类的能力;3.逐层学习策略,将相邻两层网络视为浅层网络,加快学习速率,提高网络的泛化能力。

深度堆栈神经网络采用逐层学习策略,发挥了浅层神经网络(SAE)的优势以获取初始化参数,通过“堆栈”形成深度神经网络,最后将整个堆栈自编码神经网络的所有层都看成一个模型,统一对模型中的参数进行微调,与卷积神经网络一样具有强大的表达能力。自编码网络的一个改进是降噪自编码网络,与自编码网络不同的是,降噪自编码网络对应的降噪自编码器(SDAE)输入是带有高斯噪声的输入,期望输出没有噪声的数据,通过最小化重构误差,使得降噪自编码网络具有一定抗噪能力,且其对输入数据更具鲁棒性。

图4 自编码网络(右)、降噪自编码网络(左)的对比

图 中左边显示了自编码网络、右边显示了改进后的降噪自编码网络,从图中可以看出,自编码网络重构的是期望输出与输入的对比误差,降噪自编码重构的是期望输出和噪声输入的对比误差。因此,后者除了具备一般自编码网络的特性外,其能够学习到鲁棒性更好的特征表达,泛化能力也比前者更强。

2.3 深度生成网络(GEN):

生成对抗网络的核心思想是从训练样本中学习所对应的概率分布,以期根据概率分布函数获取更多的“生成”样本来实现数据扩展,其本质是通过扩展数据量以提高训练模型的泛化能力,其网络结构如下图  所示,生成模型和判别模型的设计可以采纳各种深度神经网络,下图  中选用了卷积神经网络,故为深度卷积对抗生成网络。

图5 深度卷积对抗生成网络结构

深度对抗神经网络,由两个子网络组成。一个生成模型,为了生成与“真”图像分布相似的 “伪”图像;另外一个判别模型,为了在生成的“伪”图像与“真”图像中进行正确判断。整个网络呈现一种“对抗”关系,最终生成模型通过学习“真”数据的本质特性,刻画出“真”数据的分布概率,生成与“真”数据相似的新数据,达到了数据扩展的目的;同时,判别模型的性能也在“对抗”中逐步提高,得到一个特征判别能力强大的判别器。深度对抗神经网络已经在图像分类、分割、检测等诸多领域得到突破性成绩,近年也在视觉跟踪领域得到成功应用。

2.4注意力机制模型

注意力机制模仿人类视觉中大脑对信号的处理机制,人类视觉系统可以在快速获取全局图像后,重点注意感兴趣的目标区域,以此获得更多目标的细节信息。这种注意力的集中,可以更加快速在有限的时间内获取更有价值的信息。其数学模型描述公式(1)所示,其模型结构如图  所示, 对之前隐藏层状态 的加权求和,权值 为即注意力得分; 为当前隐藏层状态,注意力函数 计算 和 之间的非线性映射得分,之后用softmax函数进行归一化得到概率分布 .

图6 全局注意力机制模型结构图

注意力机制模型的一大优点是专注输入数据与当前输出显著相关的有用信息,因其结构化的选取输入子集,降低了输入数据维度。注意力机制模型与RNN、CNN等神经网络结合,已经成为深度学习的一个热点,目前在自然语言处理、图像处理、目标跟踪等领域得到广泛应用。

2.5.孪生网络模型(SimeaeNet)

孪生网络是指包含两个或多个相同子网络的一类神经网络,这类网络不仅具有相同的参数和权重,参数跟新也是同时在子网络中进行,其模型结构图如下图  所示。

图7 孪生网络模型结构

孪生网络核心思想是度量学习,实现方法是构建合适的距离函数(如欧氏距离等)描述样本之间的相似度,对同一类别样本相似度大距离小,不同类别样本相似度小距离大。模型数学描述即:

   

公式(2)中样本输入一对样本 和标签 ,其中y=1样本对为不同标签,y=0样本对为同一标签,样本对通过神经网络映射到特征空间 ,计算映射后样本对距离函数 ,若 则 与 为同一标签,反之,则为不同标签;结合标签y计算对比损失函数 ,更新网络参数。

    孪生网络对于类别数多,但每个类别样本少的情况下,可以仅仅学习少量样本相似度,以此度量未知样本的类别。在计算机视觉的图像匹配、图像识别、图像检索、多视图3D重建、运动结构分析等领域应用广泛,近年逐渐被应用于视觉跟踪领域,精度达到要求的同时,实时性也很强。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章