Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

1.簡介

目的：計算機視覺系統中使用內存是否可以提高移動設備視頻流中目標檢測的準確性，以及是否可以減少計算時間。
方法：
- Slow network負責提取視頻幀的精確特徵，速度較慢，Fast network負責快速提取視頻幀的特徵提取，準確率較差，兩者交替處理視頻幀圖像。
- 強化學習算法學習自適應推斷機制。
結果：在Imagenet VID 2015數據集上，達到了移動檢測方法的最佳，運行速度高達70+FPS。

2.相關

研究目的：神經網絡是否同樣能夠使用內存輔助使得執行視頻對象檢測時減少計算量。
關鍵問題一：相鄰幀趨向於相似，在多個幀上運行一個特徵提取器可能會導致大部分冗餘計算。
- 初步Idea：保存以前的計算特徵記憶，並且只從新幀中提取少量必要的特徵。最少的計算量，依賴記憶模式。
- 初步設計：因爲相鄰幀存在冗餘計算，所以設計了兩個特徵提取器：
  - 一個精準的提取器用於初始化和保存特徵記憶
  - 一個粗略的提取器用於快速提取圖像的大致特徵
Point：在不同幀上，兩個提取器有不同的速度和識別能力。使用一個公共記憶模塊（convLSTM）對它們的輸出進行融合。
新的關鍵問題二：以上機制有必要知道記憶何時需要被更新（選擇關鍵幀）。
- Idea：強化學習問題，在運行特徵提取器時，學習一種交替策略。利用記憶模塊的信息構建自適應學習策略。

3.方法

交替模型組成：
- 2個特徵提取器：f0慢速提取器基於MobileNetV2（320320），f1快速提取器基於MobileNetV2（160160）。(兩個模型的depth multiplier不同，前者爲1.4，後者爲0.35)
- 公共記憶模型
- 生成框模型：SSD-style detector,anchors比率限制爲{1.0,0.5,2.0}。
- 超參n：即交替比例，f1（快速）運行後運行f0（慢速）n次。
記憶模型：
- 作用：時間維度上聚合兩個特徵提取器的特徵，尤其的慢速提取器的記憶特徵。
- 爲了提高速度，論文的ConvLSTM有三點改進：
  - 採用了Bottleneck 並且將其輸出和output跳躍連接。
  - LSTM單元分組卷積。特徵圖HxWxN分爲G組，每個LSTM僅處理HxWxN/G的特徵，加速ConvLSTM計算。論文中G = 4。
  - LSTM有一固有弱點，sigmoid激活輸入和忘記門很少完全飽和，導致緩慢的狀態衰減，長期依賴逐漸喪失，更新中無法保留完整的前期狀態。導致Fast network運行中，Slownetwork特徵緩慢消失。論文提出在快速網絡運行時跳過更新狀態，即上一時刻慢速網絡運行輸出特徵重複使用。
訓練過程：
- 不啓用檢測層的情況下，對交替模型進行預訓練。+softmax；每幀複製三次使用三個LSTM，特徵器隨機選擇訓練這三幀。（？）
- 之後，加上SSD檢測器。將LSTM展開到六個步驟，並在每個步驟中均勻地選擇一個隨機的特徵提取器。
- 對於圖像數據，我們通過在每一步裁剪一個特定的區域，並在每一步之間移動裁剪來模擬平移和縮放，以幫助模型學習運動和盒子位移之間的關係。
自適應交替策略：
- 提出了一種利用強化學習學習自適應交叉策略的新方法，用來優化交替策略。
- 策略網絡π檢查LSTM狀態並決定輸出哪個特徵提取器。
- 使用Double Q-learning方法訓練π。
  - 動作空間：m個動作，動作a對應下個時間運行的提取器fa。
  - 狀態空間：s
  - 獎勵函數：R 速度獎勵和準確度獎勵的總和。
推理優化：
- 提高幀率

4.實驗

數據集: imagenet VID 2015
- 30個目標類
訓練數據：使用了VID訓練數據、Imagenet DET相關類數據和COCO訓練數據。
- 3862個視頻
- 14萬7千張圖片from DET
- 4萬3千張圖片from COCO
驗證數據：
- 555個視頻from VID
結果：
- 與單幀檢測、LSTM-based方法、其他方法。