神經網絡參數量化，模型壓縮論文筆記Training with Quantization Noise for Extreme Model Compression

原創

Li Kang

2020-05-07 06:28

Training with Quantization Noise for Extreme Model Compression

模型壓縮

神經網絡參數量化

標量定點化和向量定點化結合

方法

論文地址

結論

本文介紹了一種新的神經網絡參數量化的方法，能夠極大壓縮神經網絡對內存的消耗。

本文提到兩類量化方法，一類是標量定點化，就是常用的定點方式。通過變量的動態範圍來確定變量需要的位數。文中提到了int4和int8。另一類是向量定點化，將一個列向量，分成多個子向量。子向量之間共用一套編解碼本，能實現更大的壓縮率。本文稱爲Product Quantization，簡稱爲PQ。本文使用的是iPQ（iterative Product Quantization）。

本文有兩種針對參數量化的訓練方法，一種是QAT（Quantization Aware Training），一種是QN（Quantization Noise）

本文舉例用了兩個網絡，語言模型Wikitext-103和圖片分類器ImageNet-1k。Wikitext-103的性能指標是PPL，ImageNet-1k的性能指標是Top1準確率。分別對原始模型，三種量化方法，int4，int8，PQ量化和兩種訓練方法的組合。比較了模型壓縮率和性能之間的tradeoff。

本文的三個結論：

1 Quant-Noise 能提高所有量化方式（int4，int8，PQ）的適應能力
2 Quant-Noise 能使得PQ量化方法稱爲新的 state-of-art方法，能夠在性能和模型大小之間取得絕佳的trade-off。
3 Quant-Noise 訓練int8和PQ結合的權重以及激活函數量化方式，能達到一個極致。ImageNet能實現 79.8%的top-1準確率，WikiText-103能實現21.1的PPL。
總之，就是Quant-Noise很厲害，包括既有的量化方式（int4，int8 初級組合），新的量化方式（PQ 高級組合），以及結合的方式（int8+PQ 終極組合）主要的結論來自下面這張圖。

簡介

神經網絡參數量化

標量定點化

向量定點化 Product Quantization

傳統PQ

迭代PQ

標量定點化和向量定點化結合

方法

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

神經網絡參數量化，模型壓縮論文筆記Training with Quantization Noise for Extreme Model Compression

Training with Quantization Noise for Extreme Model Compression

結論

簡介

相關工作

模型壓縮

神經網絡參數量化

標量定點化

向量定點化 Product Quantization

傳統PQ

迭代PQ

標量定點化和向量定點化結合

方法

波束形成算法學習筆記

盲源分離算法學習筆記

Home Credit Default Risk 違約風險預測，kaggle比賽，初級篇，LB 0.749

一文讀懂FFT，海寧窗（hann）和漢明窗（hamming）的區別，如何選擇窗函數

生成模型和判別模型(Generative model, Discriminative model)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結