神經網絡參數量化,模型壓縮論文筆記Training with Quantization Noise for Extreme Model Compression


論文地址

結論

本文介紹了一種新的神經網絡參數量化的方法,能夠極大壓縮神經網絡對內存的消耗。

本文提到兩類量化方法,一類是標量定點化,就是常用的定點方式。通過變量的動態範圍來確定變量需要的位數。文中提到了int4和int8。另一類是向量定點化,將一個列向量,分成多個子向量。子向量之間共用一套編解碼本,能實現更大的壓縮率。本文稱爲Product Quantization,簡稱爲PQ。本文使用的是iPQ(iterative Product Quantization)。

本文有兩種針對參數量化的訓練方法,一種是QAT(Quantization Aware Training),一種是QN(Quantization Noise)

本文舉例用了兩個網絡,語言模型Wikitext-103和圖片分類器ImageNet-1k。Wikitext-103的性能指標是PPL,ImageNet-1k的性能指標是Top1準確率。分別對原始模型,三種量化方法,int4,int8,PQ量化和兩種訓練方法的組合。比較了模型壓縮率和性能之間的tradeoff。

本文的三個結論

  • 1 Quant-Noise 能提高所有量化方式(int4,int8,PQ)的適應能力
  • 2 Quant-Noise 能使得PQ量化方法稱爲新的 state-of-art方法,能夠在性能和模型大小之間取得絕佳的trade-off。
  • 3 Quant-Noise 訓練int8和PQ結合的權重以及激活函數量化方式,能達到一個極致。ImageNet能實現 79.8%的top-1準確率,WikiText-103能實現21.1的PPL。
  • 總之,就是Quant-Noise很厲害,包括既有的量化方式(int4,int8 初級組合),新的量化方式(PQ 高級組合),以及結合的方式(int8+PQ 終極組合)主要的結論來自下面這張圖。

在這裏插入圖片描述

簡介

相關工作

模型壓縮

神經網絡參數量化

標量定點化

向量定點化 Product Quantization

傳統PQ

迭代PQ

標量定點化和向量定點化結合

方法

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章