Observations
通過幾組實驗觀察到
- 反轉Knowledge Distillation(KD)即利用student來guide teacher的話,teacher的性能依然可以得到提升
- 用一個比student還差的teacher來guide student的話,student的性能依然可以得到提升
因此作者得到以下觀點
- KD只是一種可學習的label smoothing regularization
- label smoothing regularization可以看做提供了一個虛擬teacher的KD
- argue到KD的有效性可能不全是像KD論文說的那樣student從teacher那獲得了類別之間的相似關係,還因爲soft target的正則作用,後者甚至更重要
Re-KD是反轉的KD,即用student來guide teacher
De-KD代表用沒有訓練好的,比student性能還差的teacher去guide student
teacher的性能好壞對student的影響沒有那麼大
KD和label smoothing regularization(LSR)的聯繫
通過推導公式可以發現
- KD是一種可學習的LSR
- LSR是一種特殊的KD,他相當於是一個得到隨機猜的老師
- 當KD的t很大時,KD提供的soft target和LSR提供的均勻分佈是類似的
這也解釋了上面Re-KD和DE-KD可以幫助學習的原因,實際上是一種正則化
Teacher Free KD
- self-training:由於差teacher可以guide student,我們完全可以訓練一個student然後去guide student
- reg:聯合KD和LSR,即把LSR當成teacher跟預測結果做KL loss
Experiment
Self-training可以和正常的KD取得類似的效果
Reg和self training性能差不多,但是他沒有增加太多計算量,且比LSR好很多,可以嘗試