神經網絡剪枝

原創

lijiancheng0614

2018-09-05 01:41

對神經網絡（主要是CNN）進行剪枝，使模型運行速度變快，大小變小，且準確率與原來相近。

如何剪枝

移除濾波器

參考論文 1，對所有濾波器（filters）計算L1範數，移除值較小的濾波器。

優點

模型變小，運行速度變快。
缺點

依然保留部分冗餘的連接。
1. 普通卷積
輸入的特徵圖： $x_{i} \in R^{n_{i} \times h_{i} \times w_{i}}$

輸出的特徵圖： $x_{i + 1} \in R^{n_{i + 1} \times h_{i + 1} \times w_{i + 1}}$

不考慮 bias，參數維度： $n_{i} \times n_{i + 1} \times k_{h} \times k_{w}$ ，即有 $n_{i + 1}$ 個 3D 濾波器 $F_{i, j} \in R^{n_{i} \times k_{h} \times k_{w}}$

計算每個濾波器的 L1 值，取最小的若干個移除： $n_{i + 1}$ -> $n_{i + 1}^{'}$

這會影響後續層（卷積 / 全連接 / Batch Normalization 等）的輸入：

如後續卷積層的參數維度爲 $n_{i + 1}^{'} \times n_{i + 2} \times k_{h} \times k_{w}$
1. Depthwise 卷積
Depthwise 卷積參數維度爲 $1 \times n_{i} \times k_{h} \times k_{w}$

後續的 Pointwise 卷積參數維度爲 $n_{i} \times n_{i + 1} \times 1 \times 1$

應與後續的 Pointwise 卷積一起計算 L1：即使用 $d w [0, :, :, :] \cdot p w [:, i, :, :]$

移除連接

參考論文 2 3，移除權值小於一定閾值的連接。

優點

模型變小，運行速度變快。

能儘可能去掉冗餘的連接。
缺點

需要設計更稀疏的格式保存模型，否則模型不變小也不加速。

合併 Batch Normalization

Batch Normalization 的參數可以合併到上一個卷積/全連接的參數中

如設卷積的參數爲 $W$ , $b$ ，則卷積可表示爲 $y = W x + b$

Batch Normalization 的參數爲 scale, bias, mean, variance

Batch Normalization 可表示爲 $y = \frac{s c a l e}{\sqrt{v a r i a n c e + ε}} \cdot x + (b i a s - \frac{s c a l e \cdot m e a n}{\sqrt{v a r i a n c e + ε}})$

Batch Normalization 的參數合併後卷積的參數爲

$W^{'} = W \cdot \frac{s c a l e}{\sqrt{v a r i a n c e + ε}}$

$b^{'} = (b - m e a n) \cdot \frac{s c a l e}{\sqrt{v a r i a n c e + ε}} + b i a s$

剪枝策略

逐層剪枝比一次性剪枝效果好
每層剪枝比例應根據敏感度分析去刪減
移除濾波器時，計算L1移除值較小的比隨機移除、其它計算方法效果好
剪枝後進行 finetune 比 train from scratch 效果好
剪枝後固定較爲敏感的層的權值再訓練的效果比較好

參考

(ICLR 2017) Pruning Filters for Efficient Convnets https://arxiv.org/abs/1608.08710 ↩
(ICLR 2016) Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding https://arxiv.org/abs/1510.00149 https://github.com/songhan/Deep-Compression-AlexNet ↩
(NIPS 2015) Learning both Weights and Connections for Efficient Neural Networks https://arxiv.org/abs/1506.02626 ↩

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

神經網絡剪枝

如何剪枝

移除濾波器

移除連接

合併 Batch Normalization

剪枝策略

參考

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

今年在影院看的電影。。

Scene Parsing

[paper] GAN

唐詩生成器

[paper] Look Into Person

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結