CVPR视频目标检测文章:Learning Motion Priors for Efficient Video Object Detection 解读

Learning Motion Priors for Efficient Video Object Detection

视频中的目标检测方法,基于RFCN(Dai et al. 2016)的单帧图像检测方法。
首先视频帧被分为关键帧和非关键帧(Zhu et al. 2017b)。对于关键帧通过整个网络来提取更深的深度特征,而非关键帧提取浅层的信息,从而加快inference的速度。非关键帧的深度特征是用关键帧的深度特征估计出来的,这一点是视频目标检测的关键。

提出了一个AMPL模块,主要包括运行先验初始化,相似度计算,特征估计以及运动先验更新(Motion Priors Initialization, Similarity Calculator, Feature Estimation and Motion Priors Update.)
运动先验初始化,选取的两张图像motion prior类似于目标检测中的anchor boxes, 黑色的箭头和红色的箭头分别表示初前向传播和反向传播,蓝色的点和红色的点分别是初始化的Motion Prior和更新后的Motion Proir, 绿色的箭头是学习的过程。
运动先验初始化
首先设置一些蓝色的点,这些蓝色的点可以根据目标的运动范围设置,这样可以更加快算的使模型收敛。
计算双线性插值,为了下面计算相似性
双线性插值
计算两块特征的相似性, 以及归一化
在这里插入图片描述
在这里插入图片描述
接下来是特征估计, 这里的F’t+k 是t+k帧根据F’t帧估计出来的,计算公式如下
在这里插入图片描述
然后是运动先验更新过程, 关于pl求导
在这里插入图片描述
在这里插入图片描述
下面是网络的整体结构
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
实验结果
在这里插入图片描述
消融实验结果对比

在这里插入图片描述
实验结果达到了接近实时,不过代码还没有开源, 有想实现的小伙伴可以在下面留言啊, 欢迎交流~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章