Training with Quantization Noise for Extreme Model Compression
論文地址
結論
本文介紹了一種新的神經網絡參數量化的方法,能夠極大壓縮神經網絡對內存的消耗。
本文提到兩類量化方法,一類是標量定點化,就是常用的定點方式。通過變量的動態範圍來確定變量需要的位數。文中提到了int4和int8。另一類是向量定點化,將一個列向量,分成多個子向量。子向量之間共用一套編解碼本,能實現更大的壓縮率。本文稱爲Product Quantization,簡稱爲PQ。本文使用的是iPQ(iterative Product Quantization)。
本文有兩種針對參數量化的訓練方法,一種是QAT(Quantization Aware Training),一種是QN(Quantization Noise)
本文舉例用了兩個網絡,語言模型Wikitext-103和圖片分類器ImageNet-1k。Wikitext-103的性能指標是PPL,ImageNet-1k的性能指標是Top1準確率。分別對原始模型,三種量化方法,int4,int8,PQ量化和兩種訓練方法的組合。比較了模型壓縮率和性能之間的tradeoff。
本文的三個結論:
- 1 Quant-Noise 能提高所有量化方式(int4,int8,PQ)的適應能力
- 2 Quant-Noise 能使得PQ量化方法稱爲新的 state-of-art方法,能夠在性能和模型大小之間取得絕佳的trade-off。
- 3 Quant-Noise 訓練int8和PQ結合的權重以及激活函數量化方式,能達到一個極致。ImageNet能實現 79.8%的top-1準確率,WikiText-103能實現21.1的PPL。
- 總之,就是Quant-Noise很厲害,包括既有的量化方式(int4,int8 初級組合),新的量化方式(PQ 高級組合),以及結合的方式(int8+PQ 終極組合)主要的結論來自下面這張圖。