文章目錄
- 題目:HAQ: Hardware-Aware Automated Quantization with Mixed Precision
- 時間:2019
- 會議:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
- 研究機構:韓松
- github: https://github.com/mit-han-lab/haq-release
他引用的論文
A scalable bit-serial matrix multiplication overlay for reconfigurable computing
Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network
Netadapt: Platform-aware neural network adaptation for mobile applications
1 abstract & introduction &related work
確定每層網絡的量化位寬,設計空間過大
- H:硬件平臺數量
- M:M個網絡模型
- N:一個網絡有N層
假設每層網絡weight和activation的位寬是1-8bit之間,則可能性有種
人工定點化時一些的規律:
- 第一層和最後一層位數多一點
- 卷積層更敏感,位寬要比全連接層多
本篇論文的貢獻:
- 自動化的Hardware-Aware Automated Quantization (HAQ) framework
- 硬件可以直接反饋
- 強化學習採用了deep deterministic policy gradient
related work
- quantization
- autoML
- efficient model
2 approach
2.1 observation(state space)
這裏定義了狀態,分成卷積層和全連接層
2.2 action space
一旦硬件的指標不滿足,就會降低每層的位寬來滿足限制
2.3 硬件的直接反饋
2.4 量化
就是正常的量化策略,先截斷,再就近取數
本篇論文的量化可以分成三種:
- 延時限制的量化
- 能耗限制的量化
- 模型大小限制的量化
2.5 reward function獎勵函數
獎勵函數只跟準確率有關
2.6 agent
利用了這個算法deep deterministic policy gradient(DDPG)