CVPR視頻目標檢測文章：Learning Motion Priors for Efficient Video Object Detection 解讀

Learning Motion Priors for Efficient Video Object Detection

視頻中的目標檢測方法，基於RFCN(Dai et al. 2016)的單幀圖像檢測方法。
首先視頻幀被分爲關鍵幀和非關鍵幀(Zhu et al. 2017b)。對於關鍵幀通過整個網絡來提取更深的深度特徵，而非關鍵幀提取淺層的信息，從而加快inference的速度。非關鍵幀的深度特徵是用關鍵幀的深度特徵估計出來的，這一點是視頻目標檢測的關鍵。

提出了一個AMPL模塊，主要包括運行先驗初始化，相似度計算，特徵估計以及運動先驗更新（Motion Priors Initialization, Similarity Calculator, Feature Estimation and Motion Priors Update.）
運動先驗初始化，選取的兩張圖像motion prior類似於目標檢測中的anchor boxes，黑色的箭頭和紅色的箭頭分別表示初前向傳播和反向傳播，藍色的點和紅色的點分別是初始化的Motion Prior和更新後的Motion Proir，綠色的箭頭是學習的過程。

首先設置一些藍色的點，這些藍色的點可以根據目標的運動範圍設置，這樣可以更加快算的使模型收斂。
計算雙線性插值，爲了下面計算相似性

計算兩塊特徵的相似性，以及歸一化

接下來是特徵估計，這裏的F’t+k 是t+k幀根據F’t幀估計出來的，計算公式如下

然後是運動先驗更新過程，關於pl求導

下面是網絡的整體結構

實驗結果

消融實驗結果對比