Distilling the Knowledge in a Neural Network

其实应该最先写这篇文章的总结的，之前看了忘了记录

Motivation

one hot label会将所有不正确的类别概率都设置为0，而一个好的模型预测出来的结果，这些不正确的类别概率是有不同的，他们之间概率的相对大小其实蕴含了更多的信息，代表着模型是如何泛化判别的。

比如一辆轿车，一个模型更有可能把它预测成卡车而不是猫，这其实给出了比one hot label更多的信息即轿车和卡车更像，而和猫不像。

如果一个大的模型做到了很好的泛化性能，那我们可以用一个小的模型去模拟他的泛化结果去达到较好的效果

Method

Loss = CE(softmax(predict), one hot label) + alpha * T * T * CE(softmax(predict/T), soft target)

T作为一个超参，当T很大时，qi会更加soft，比如T趋于无穷大，则qi=(1/n, 1/n…)

当T较小时(比如T=1)，需要去匹配更多的不正确类别的概率。如果student和teacher性能相差较大，可设置T为中等大小

VS Matching logits(Caruana提出的)

Matching logits(https://www.cs.cornell.edu/~caruana/compression.kdd06.pdf) is a special case of distillation

C = CE(softmax(predict/T), soft target)，根据CE的求导公式得

如果temperature T比logits的量级（magnitude）要大得多，那么zi/T->0，zi<0时从左边趋近0，>0时从右边趋近0，所有e^(zi/T) =1+zi/T

假设对于每一个transfer case，都有logits的均值为0，所以上式可以简化为

所以，如果temperature T很高，如果对于每一个transfer case，都有logits的均值为0，那么distillation就等价于最小化1/2(zi−vi)^2，也就是Caruana提出的使得复杂模型的logits和小模型的logits的平方差最小
https://daiwk.github.io/posts/dl-knowledge-distill.html

Soft Targets as Regularizers

用soft target进行训练避免了过拟合

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Distilling the Knowledge in a Neural Network

Motivation

Method

VS Matching logits(Caruana提出的)

Soft Targets as Regularizers

985 硕士程序员，空窗 4 个月没有 Offer！

【入门教程】5分钟教你快速学会集成Java springboot ~

营销系统黑名单优化：位图的应用解析

一文搞懂 Spring 循环依赖

我真的从测试转成了开发......

盛大发布 | Zabbix 7.0 LTS--性能与扩展的卓越融合

nginx添加相应配置，通过浏览器访问或curl时返回客户端对应公网IP

赛博斗地主——使用大语言模型扮演Agent智能体玩牌类游戏。

python内置函数——sorted

[oeasy]python020在游戏中体验数值自由_勇闯地下城_终端文字游戏

Revisit Knowledge Distillation: a Teacher-free Framework

Attention Transfer

Similarity-Preserving Knowledge Distillation

NLP pretrained model

Be Your Own Teacher: Improve the Performance of Convolutional Neural Networks via Self Distillation

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結