网络模型小型化--量化

原創

2020-05-14 14:58

网络模型量化

模型量化

以更少位数的数据类型用于近似表示32位有限范围浮点型数据的过程

模型的输入输出依然是浮点型

达到减少模型尺寸大小、减少模型内存消耗及加快模型推理速度等目标

原理

模型量化桥接了定点与浮点，建立了一种有效的数据映射关系，使得以较小的精度损失代价获得了较好的收益
由浮点到定点的量化
由定点到浮点反量化

优缺点

好处

减小模型尺寸，如8位整型量化可减少75%的模型大小
减少存储空间，在边缘侧存储空间不足时更具有意义
易于在线升级，模型更小意味着更加容易传输
减少内存耗用，更小的模型大小意味着不需要更多的内存
加快推理速度，访问一次32位浮点型可以访问四次int8整型，整型运算比浮点型运算更快
减少设备功耗，内存耗用少了推理速度快了自然减少了设备功耗
支持微处理器，有些微处理器属于8位的，低功耗运行浮点运算速度慢，需要进行8bit量化

缺点

模型量化增加了操作复杂度，在量化时需要做一些特殊的处理，否则精度损失更严重
模型量化会损失一定的精度，虽然在微调后可以减少精度损失，但推理精度确实下降

TF模型的两类量化方式

针对已经训练好的模型进行量化

TensorFlow Lite converter
TensorFlow Lite Optimizing COnverter（toco命令工具）
需要结合业务场景及所拥有的硬件资源选择量化的方式，目的是以最小损失达到最大化模型量化效果
训练后量化几种方案
- 混合量化–仅量化权重
  - 浮点型的权重量化为int8整型，可将模型大小直接减少75%、提升推理速度最大3倍
  - 推理的过程中，需要将int8量化值反量化为浮点型后再进行计算
  - 如果某些Ops不支持int8整型量化，那么其保存的权重依然是浮点型的
- 全整型量化–权重和激活值都进行量化
  - 试图将权重、激活值及输入值均全部做int8量化，并且将所有模型运算操作置于int8下进行执行，以达到最好的量化效果
  - 需要一个具有代表性的小数据集，用于统计激活值和输入值等的浮点型范围，以便进行精准量化
- 半精度float16量化–仅量化权重
  - 将权重量化为半精度float16形式，其可以减少一半的模型大小、相比于int8更小的精度损失
  - 如果硬件支持float16计算的话那么其效果更佳
  - 在CPU运行时，半精度量化也需要像int8量化一样进行反量化到float32在进行计算
  - GPU可以支持float16运算

TF量化感知训练（Quantization-aware training）

伪量化的过程
在可识别的某些操作内嵌入伪量化节点（fake quantization nodes）
- 用以统计训练时流经该节点数据的最大最小值，便于在使用TOCO转换tflite格式时量化使用并减少精度损失
- 需要对训练和推理过程添加代码
  - 第一步，在训练图结构内添加伪量化节点
  - 第二步，重写推理图结构并保存为新的模型
  - 第三步，转换模型为全量化模型

两种方式的有缺点比较

两者均可达到模型量化的作用
两者的推理工作原理是一样的
两者都可工作在Tensorflow lite推理框架下并进行相应加速
训练后量化工作量稍微简单些，而量化感知训练工作量更繁琐一些
量化感知训练比训练后量化损失的精度更少，官方推荐使用量化感知训练方式

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

网络模型小型化--量化

网络模型量化

模型量化

以更少位数的数据类型用于近似表示32位有限范围浮点型数据的过程

模型的输入输出依然是浮点型

达到减少模型尺寸大小、减少模型内存消耗及加快模型推理速度等目标

原理

优缺点

好处

缺点

TF模型的两类量化方式

针对已经训练好的模型进行量化

TF量化感知训练（Quantization-aware training）

两种方式的有缺点比较

如何使用 JS 判断用户是否处于活跃状态

lightdb秒级增加列和删除列（not null带默认值）

lightdb数据库超时相关控制参数

通过HPA+CronHPA组合应对业务复杂弹性伸缩场景

❤️‍🔥 Solon Cloud Event 新的事务特性与应用

lightdb mysql 8.0兼容之不可见主键

使用 JS 实现在浏览器控制台打印图片 console.image()

基于Ubuntu-22.04安装K8s-v1.28.2实验（四）使用域名访问网站应用

python函數參數中添加默認值

python 編程規範的一些要點

python函數參數中獨立星號*的作用

linux下find命令和xargs的組合使用

pytorch模型剪枝學習筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結