論文
簡介
Awesome Knowledge-Distillation 博客轉自CTOLib碼庫:https://www.ctolib.com/FLHonker-Awesome-Knowledge-Distillation.html Aweso
Observations 通過幾組實驗觀察到 反轉Knowledge Distillation(KD)即利用student來guide teacher的話,teacher的性能依然可以得到提升 用一個比student還差的tea
Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Trans
Motivation 下圖可以發現,語義相似的輸入會產生相似的激活。這個非常好理解,這個C維的特徵向量可以代表該輸入的信息 因此本文根據該觀察提出了一個新的蒸餾loss,即一對輸入送到teacher中產生的特徵向量很相似,那麼送到
Loss Source 1: Cross entropy loss,各個階段的分類器都有 Loss Source 2: KL loss,深層的分類器作爲淺層分類器的teacher Loss Source 3: L2 loss f
概述 Knowledge Distillation(KD)一般指利用一個大的teacher網絡作爲監督,幫助一個小的student網絡進行學習,主要用於模型壓縮。 其方法主要分爲兩大類 Output Distillation
Motivation 已有的KD方法提升性能都是基於一個假設:teacher模型可以提供一種弱監督,且能被一個小student網絡學習,但是實際上一個收斂的大網絡表示空間很難被student學習,這會導致congruence lo
其實應該最先寫這篇文章的總結的,之前看了忘了記錄 Motivation one hot label會將所有不正確的類別概率都設置爲0,而一個好的模型預測出來的結果,這些不正確的類別概率是有不同的,他們之間概率的相對大小其實蘊含
其實應該先早點寫這篇文章的 這篇文章主要是將hinton的output distillation擴展到了feature distillation 該loss用來拉進student和teacher feature的距離 該
Motivation 目前大多數KD框架的pipeline 一張圖片送入teacher和student得到各自的feature和output 然後定義loss,拉進feature或者output的距離 但是他們都是直接在一個整圖
Motivation 檢測起更focus在物體出現的區域 Detectors care more about local near object regions. 物體出現的周圍特徵變化其實包含了更多重要信息,這是student
Motivation 實驗觀察到:並不是性能越好的teacher就能蒸餾(教)出更好的student,因此本文想梳理出影響蒸餾性能的因素 推測是容量不匹配的原因,導致student模型不能夠mimic teacher,反而帶偏了
Motivation ClovaAI今年ICCV做了還幾篇總結性的工作,該篇也類似,先總結當下做feature distillation的各個方向,總體的pipeline是選取student和teacher網絡結構的某個位置然後對