网络模型小型化--量化

在这里插入图片描述

网络模型量化

模型量化

以更少位数的数据类型用于近似表示32位有限范围浮点型数据的过程

模型的输入输出依然是浮点型

达到减少模型尺寸大小、减少模型内存消耗及加快模型推理速度等目标

原理

  • 模型量化桥接了定点与浮点,建立了一种有效的数据映射关系,使得以较小的精度损失代价获得了较好的收益
  • 由浮点到定点的量化
  • 由定点到浮点反量化

优缺点

好处

  • 减小模型尺寸,如8位整型量化可减少75%的模型大小
  • 减少存储空间,在边缘侧存储空间不足时更具有意义
  • 易于在线升级,模型更小意味着更加容易传输
  • 减少内存耗用,更小的模型大小意味着不需要更多的内存
  • 加快推理速度,访问一次32位浮点型可以访问四次int8整型,整型运算比浮点型运算更快
  • 减少设备功耗,内存耗用少了推理速度快了自然减少了设备功耗
  • 支持微处理器,有些微处理器属于8位的,低功耗运行浮点运算速度慢,需要进行8bit量化

缺点

  • 模型量化增加了操作复杂度,在量化时需要做一些特殊的处理,否则精度损失更严重
  • 模型量化会损失一定的精度,虽然在微调后可以减少精度损失,但推理精度确实下降

TF模型的两类量化方式

针对已经训练好的模型进行量化

  • TensorFlow Lite converter

  • TensorFlow Lite Optimizing COnverter(toco命令工具)

  • 需要结合业务场景及所拥有的硬件资源选择量化的方式,目的是以最小损失达到最大化模型量化效果

  • 训练后量化几种方案

    • 混合量化–仅量化权重

      • 浮点型的权重量化为int8整型,可将模型大小直接减少75%、提升推理速度最大3倍
      • 推理的过程中,需要将int8量化值反量化为浮点型后再进行计算
      • 如果某些Ops不支持int8整型量化,那么其保存的权重依然是浮点型的
    • 全整型量化–权重和激活值都进行量化

      • 试图将权重、激活值及输入值均全部做int8量化,并且将所有模型运算操作置于int8下进行执行,以达到最好的量化效果
      • 需要一个具有代表性的小数据集,用于统计激活值和输入值等的浮点型范围,以便进行精准量化
    • 半精度float16量化–仅量化权重

      • 将权重量化为半精度float16形式,其可以减少一半的模型大小、相比于int8更小的精度损失
      • 如果硬件支持float16计算的话那么其效果更佳
      • 在CPU运行时,半精度量化也需要像int8量化一样进行反量化到float32在进行计算
      • GPU可以支持float16运算

TF量化感知训练(Quantization-aware training)

  • 伪量化的过程

  • 在可识别的某些操作内嵌入伪量化节点(fake quantization nodes)

    • 用以统计训练时流经该节点数据的最大最小值,便于在使用TOCO转换tflite格式时量化使用并减少精度损失

    • 需要对训练和推理过程添加代码

      • 第一步,在训练图结构内添加伪量化节点
      • 第二步,重写推理图结构并保存为新的模型
      • 第三步,转换模型为全量化模型

两种方式的有缺点比较

  • 两者均可达到模型量化的作用
  • 两者的推理工作原理是一样的
  • 两者都可工作在Tensorflow lite推理框架下并进行相应加速
  • 训练后量化工作量稍微简单些,而量化感知训练工作量更繁琐一些
  • 量化感知训练比训练后量化损失的精度更少,官方推荐使用量化感知训练方式
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章