其實應該先早點寫這篇文章的
這篇文章主要是將hinton的output distillation擴展到了feature distillation
該loss用來拉進student和teacher feature的距離
該loss就是與hard label、soft label做cross entroy
訓練過程需要注意:
- 先進行hints training,即選擇某一層feature對齊後,利用HT loss訓練該層前面的參數
- 固定前面的參數,利用KD loss,訓練整個網絡
其實應該先早點寫這篇文章的
這篇文章主要是將hinton的output distillation擴展到了feature distillation
該loss用來拉進student和teacher feature的距離
該loss就是與hard label、soft label做cross entroy
訓練過程需要注意: