Motivation
- 檢測起更focus在物體出現的區域 Detectors care more about local near object regions.
- 物體出現的周圍特徵變化其實包含了更多重要信息,這是student網絡需要向teacher網絡學習的
註解:
與分類不同,蒸餾方法在檢測中如果進行全特徵模仿的話對子網絡的提升很有限(這裏存疑,文章沒有明確指出全特徵模仿了哪些特徵層)。
這可能是由於過多的無用背景anchor引入的噪音覆蓋了來自teacher net的監督信息。文章認爲檢測器會關注目標區域以及其周邊的位置,目標區域上的不同positive anchor之間的差異表現的就是teacher net對於檢測目標的泛化特點。
Framework
Imitation region estimation
- 計算每一個GT box和該特徵層上WxHxK個anchor的IOU得到IOU map m
- 找出最大值M=max(m),乘以rψ作爲過濾anchor的閾值: F = ψ ∗ M.
- 將大於F的anchor合併用OR操作得到WxH的feature map mask
- 遍歷所有的gt box併合並獲得最後總的mask
- 將需要模擬的student net feature map之後添加feature adaption層使其和teacher net的feature map大小保持一致。
- 加入mask信息得到這些anchor在student net中和在teacher net 中時的偏差作爲imitation loss,加入到蒸餾的訓練的loss中
Fine-grained feature imitation
- student的特徵圖通道等可能和teacher不一致,我們可以在student的特徵圖後面加一個feature adaptation層進行對齊
即使student和teacher的feature map一致,我們發現加上feature adaptation層會比直接拉進student和teache的輸出效果好
Here I is the imitation mask
Experiment
定量實驗
定性實驗