CVPR視頻目標檢測文章:Learning Motion Priors for Efficient Video Object Detection 解讀

Learning Motion Priors for Efficient Video Object Detection

視頻中的目標檢測方法,基於RFCN(Dai et al. 2016)的單幀圖像檢測方法。
首先視頻幀被分爲關鍵幀和非關鍵幀(Zhu et al. 2017b)。對於關鍵幀通過整個網絡來提取更深的深度特徵,而非關鍵幀提取淺層的信息,從而加快inference的速度。非關鍵幀的深度特徵是用關鍵幀的深度特徵估計出來的,這一點是視頻目標檢測的關鍵。

提出了一個AMPL模塊,主要包括運行先驗初始化,相似度計算,特徵估計以及運動先驗更新(Motion Priors Initialization, Similarity Calculator, Feature Estimation and Motion Priors Update.)
運動先驗初始化,選取的兩張圖像motion prior類似於目標檢測中的anchor boxes, 黑色的箭頭和紅色的箭頭分別表示初前向傳播和反向傳播,藍色的點和紅色的點分別是初始化的Motion Prior和更新後的Motion Proir, 綠色的箭頭是學習的過程。
運動先驗初始化
首先設置一些藍色的點,這些藍色的點可以根據目標的運動範圍設置,這樣可以更加快算的使模型收斂。
計算雙線性插值,爲了下面計算相似性
雙線性插值
計算兩塊特徵的相似性, 以及歸一化
在這裏插入圖片描述
在這裏插入圖片描述
接下來是特徵估計, 這裏的F’t+k 是t+k幀根據F’t幀估計出來的,計算公式如下
在這裏插入圖片描述
然後是運動先驗更新過程, 關於pl求導
在這裏插入圖片描述
在這裏插入圖片描述
下面是網絡的整體結構
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
實驗結果
在這裏插入圖片描述
消融實驗結果對比

在這裏插入圖片描述
實驗結果達到了接近實時,不過代碼還沒有開源, 有想實現的小夥伴可以在下面留言啊, 歡迎交流~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章