原创 Revisit Knowledge Distillation: a Teacher-free Framework

Observations 通過幾組實驗觀察到 反轉Knowledge Distillation(KD)即利用student來guide teacher的話,teacher的性能依然可以得到提升 用一個比student還差的tea

原创 Attention Transfer

Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Trans

原创 Similarity-Preserving Knowledge Distillation

Motivation 下圖可以發現,語義相似的輸入會產生相似的激活。這個非常好理解,這個C維的特徵向量可以代表該輸入的信息 因此本文根據該觀察提出了一個新的蒸餾loss,即一對輸入送到teacher中產生的特徵向量很相似,那麼送到

原创 NLP pretrained model

最近聽了NLP pretrained model的報告,感覺挺有意思的。此處大量參考從Word Embedding到Bert模型—自然語言處理中的預訓練技術發展史 Word Embedding 詞向量在自然語言處理中有着重要的

原创 Be Your Own Teacher: Improve the Performance of Convolutional Neural Networks via Self Distillation

Loss Source 1: Cross entropy loss,各個階段的分類器都有 Loss Source 2: KL loss,深層的分類器作爲淺層分類器的teacher Loss Source 3: L2 loss f

原创 Tutorial: Knowledge Distillation

概述 Knowledge Distillation(KD)一般指利用一個大的teacher網絡作爲監督,幫助一個小的student網絡進行學習,主要用於模型壓縮。 其方法主要分爲兩大類 Output Distillation

原创 CTC Loss和Focal CTC Loss

最近一直在做手寫體識別的工作,其中有個很重要的loss那就是ctc loss,之前在文檔識別與分析課程中學習過,但是時間久遠,早已忘得一乾二淨,現在重新整理記錄下 本文大量引用了- CTC Algorithm Explaine

原创 Knowledge Distillation via Route Constrained Optimization

Motivation 已有的KD方法提升性能都是基於一個假設:teacher模型可以提供一種弱監督,且能被一個小student網絡學習,但是實際上一個收斂的大網絡表示空間很難被student學習,這會導致congruence lo

原创 Distilling the Knowledge in a Neural Network

其實應該最先寫這篇文章的總結的,之前看了忘了記錄 Motivation one hot label會將所有不正確的類別概率都設置爲0,而一個好的模型預測出來的結果,這些不正確的類別概率是有不同的,他們之間概率的相對大小其實蘊含

原创 FitNets: Hints for Thin Deep Nets

其實應該先早點寫這篇文章的 這篇文章主要是將hinton的output distillation擴展到了feature distillation 該loss用來拉進student和teacher feature的距離 該

原创 Correlation Congruence for Knowledge Distillation

Motivation 目前大多數KD框架的pipeline 一張圖片送入teacher和student得到各自的feature和output 然後定義loss,拉進feature或者output的距離 但是他們都是直接在一個整圖

原创 Distilling Object Detectors with Fine-grained Feature Imitation

Motivation 檢測起更focus在物體出現的區域 Detectors care more about local near object regions. 物體出現的周圍特徵變化其實包含了更多重要信息,這是student

原创 On the Efficacy of Knowledge Distillation

Motivation 實驗觀察到:並不是性能越好的teacher就能蒸餾(教)出更好的student,因此本文想梳理出影響蒸餾性能的因素 推測是容量不匹配的原因,導致student模型不能夠mimic teacher,反而帶偏了

原创 A Comprehensive Overhaul of Feature Distillation

Motivation ClovaAI今年ICCV做了還幾篇總結性的工作,該篇也類似,先總結當下做feature distillation的各個方向,總體的pipeline是選取student和teacher網絡結構的某個位置然後對

原创 捕捉SIGKILL信號(kill -9)

-9 KILL (non-catchable, non-ignorable kill) kill -9 is SIGKILL and Unix system by design doesn’t allow any script/