Distilling Object Detectors with Fine-grained Feature Imitation

Motivation

  • 檢測起更focus在物體出現的區域 Detectors care more about local near object regions.
  • 物體出現的周圍特徵變化其實包含了更多重要信息,這是student網絡需要向teacher網絡學習的

註解:
與分類不同,蒸餾方法在檢測中如果進行全特徵模仿的話對子網絡的提升很有限(這裏存疑,文章沒有明確指出全特徵模仿了哪些特徵層)。
這可能是由於過多的無用背景anchor引入的噪音覆蓋了來自teacher net的監督信息。文章認爲檢測器會關注目標區域以及其周邊的位置,目標區域上的不同positive anchor之間的差異表現的就是teacher net對於檢測目標的泛化特點。
在這裏插入圖片描述

Framework

在這裏插入圖片描述

Imitation region estimation

  • 計算每一個GT box和該特徵層上WxHxK個anchor的IOU得到IOU map m
  • 找出最大值M=max(m),乘以rψ作爲過濾anchor的閾值: F = ψ ∗ M.
  • 將大於F的anchor合併用OR操作得到WxH的feature map mask
  • 遍歷所有的gt box併合並獲得最後總的mask
  • 將需要模擬的student net feature map之後添加feature adaption層使其和teacher net的feature map大小保持一致。
  • 加入mask信息得到這些anchor在student net中和在teacher net 中時的偏差作爲imitation loss,加入到蒸餾的訓練的loss中

Fine-grained feature imitation

  • student的特徵圖通道等可能和teacher不一致,我們可以在student的特徵圖後面加一個feature adaptation層進行對齊
    即使student和teacher的feature map一致,我們發現加上feature adaptation層會比直接拉進student和teache的輸出效果好
    在這裏插入圖片描述
    Here I is the imitation mask

Experiment

定量實驗
在這裏插入圖片描述
定性實驗
在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章