CVPR视频目标检测文章：Learning Motion Priors for Efficient Video Object Detection 解读

Learning Motion Priors for Efficient Video Object Detection

视频中的目标检测方法，基于RFCN(Dai et al. 2016)的单帧图像检测方法。
首先视频帧被分为关键帧和非关键帧(Zhu et al. 2017b)。对于关键帧通过整个网络来提取更深的深度特征，而非关键帧提取浅层的信息，从而加快inference的速度。非关键帧的深度特征是用关键帧的深度特征估计出来的，这一点是视频目标检测的关键。

提出了一个AMPL模块，主要包括运行先验初始化，相似度计算，特征估计以及运动先验更新（Motion Priors Initialization, Similarity Calculator, Feature Estimation and Motion Priors Update.）
运动先验初始化，选取的两张图像motion prior类似于目标检测中的anchor boxes，黑色的箭头和红色的箭头分别表示初前向传播和反向传播，蓝色的点和红色的点分别是初始化的Motion Prior和更新后的Motion Proir，绿色的箭头是学习的过程。

首先设置一些蓝色的点，这些蓝色的点可以根据目标的运动范围设置，这样可以更加快算的使模型收敛。
计算双线性插值，为了下面计算相似性

计算两块特征的相似性，以及归一化

接下来是特征估计，这里的F’t+k 是t+k帧根据F’t帧估计出来的，计算公式如下

然后是运动先验更新过程，关于pl求导

下面是网络的整体结构

实验结果

消融实验结果对比