Revisit Knowledge Distillation: a Teacher-free Framework

Observations

通過幾組實驗觀察到

  • 反轉Knowledge Distillation(KD)即利用student來guide teacher的話,teacher的性能依然可以得到提升
  • 用一個比student還差的teacher來guide student的話,student的性能依然可以得到提升

因此作者得到以下觀點

  • KD只是一種可學習的label smoothing regularization
  • label smoothing regularization可以看做提供了一個虛擬teacher的KD
  • argue到KD的有效性可能不全是像KD論文說的那樣student從teacher那獲得了類別之間的相似關係,還因爲soft target的正則作用,後者甚至更重要
    在這裏插入圖片描述
    Re-KD是反轉的KD,即用student來guide teacher
    在這裏插入圖片描述
    De-KD代表用沒有訓練好的,比student性能還差的teacher去guide student
    在這裏插入圖片描述
    teacher的性能好壞對student的影響沒有那麼大
    在這裏插入圖片描述

KD和label smoothing regularization(LSR)的聯繫

在這裏插入圖片描述
通過推導公式可以發現

  • KD是一種可學習的LSR
  • LSR是一種特殊的KD,他相當於是一個得到隨機猜的老師
  • 當KD的t很大時,KD提供的soft target和LSR提供的均勻分佈是類似的
    這也解釋了上面Re-KD和DE-KD可以幫助學習的原因,實際上是一種正則化

Teacher Free KD

  • self-training:由於差teacher可以guide student,我們完全可以訓練一個student然後去guide student
    在這裏插入圖片描述
  • reg:聯合KD和LSR,即把LSR當成teacher跟預測結果做KL loss
    在這裏插入圖片描述在這裏插入圖片描述

Experiment

Self-training可以和正常的KD取得類似的效果
在這裏插入圖片描述
在這裏插入圖片描述
Reg和self training性能差不多,但是他沒有增加太多計算量,且比LSR好很多,可以嘗試
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章