文章目錄
- 題目:Exploiting Weight-Level Sparsity in Channel Pruning with Low-Rank Approximation
- 時間:2019
- 會議:ISCAS
- 研究機構:中國科學技術大學
1 縮寫 & 引用
2 abstract & introduction
- 題目:Deep Neural Network Acceleration Based on Low-Rank Approximated Channel Pruning
- 時間:2020
- 期刊:TCAS-1
- 研究機構:中國科學技術大學
1 縮寫 & 引用
- LAP: Low-rank Approximated channel Pruning低階近似減枝
- IDC: Integral of Decay Curve衰減曲線積分
- SVD: singular value decomposition奇異數分解
Exploiting Weight-Level Sparsity in Channel Pruning with Low-Rank Approximation 2019 ISCAS
Exploiting linear structure within convolutional networks for efficient evaluation 2014 NIPS
2 abstract & introduction
本篇論文的主要貢獻:
- 提出了一個減枝方法:低階近似通道剪枝 可以保持網絡結構的規則
- 低階近似時提出了基於範式的indicator
- 提出了一個evaluator,叫做Integral of Decay Curve 衰減曲線積分
- 對於通道剪枝產生的misjudging,提出了數學模型來描述
3 相關工作
- 權重量化
線性量化、最小最大量化、對數最小最大量化 - 低階近似
把一個卷積層分解成幾個卷積層,之前的方法有
奇異數分解、CP分解、Tucker分解 - 剪枝
剪枝有不同的粒度:元素級、kernel級、filter級(三維)、層級
元素級的靈活性最大,但不能減少推理時間和memory
4 低階近似和通道剪枝的結合
4.1 基於SVD的低階近似
假設N表示輸出通道的數量,C表示輸入通道的數量,d表示kernel的大小,則權重W可以reshape成二維的的矩陣,然後進行分解
其中S是的對角矩陣,對角線是W的奇異值
U是的矩陣,V是的矩陣
然後把S截斷成的對角矩陣,就是取前k個最大的奇異值,變成
是的矩陣,是的矩陣
然後再變成
和reshape成四維張量
4.2 泰勒剪枝
關鍵要找出最不重要的filter,那重要性指標怎麼確定呢?
定義重要性指標等於剪掉這個filter之後損失函數的增加,有的filter剪掉之後損失函數增加的也不多,有的filter則很敏感,然後用一階泰勒公式展開
4.3 通道剪枝的misjudge
4.4 低階近似通道剪枝
- 用低階近似的方法,使得網絡結構都變成小filter的
- 通道剪枝