文獻閱讀（70）

原創

2020-06-29 02:29

文章目錄

題目：Exploiting Weight-Level Sparsity in Channel Pruning with Low-Rank Approximation
時間：2019
會議：ISCAS
研究機構：中國科學技術大學

1 縮寫 & 引用

2 abstract & introduction

題目：Deep Neural Network Acceleration Based on Low-Rank Approximated Channel Pruning
時間：2020
期刊：TCAS-1
研究機構：中國科學技術大學

1 縮寫 & 引用

LAP: Low-rank Approximated channel Pruning低階近似減枝
IDC: Integral of Decay Curve衰減曲線積分
SVD: singular value decomposition奇異數分解

Exploiting Weight-Level Sparsity in Channel Pruning with Low-Rank Approximation 2019 ISCAS
Exploiting linear structure within convolutional networks for efficient evaluation 2014 NIPS

2 abstract & introduction

本篇論文的主要貢獻：

提出了一個減枝方法：低階近似通道剪枝 可以保持網絡結構的規則
低階近似時提出了基於範式的indicator
提出了一個evaluator，叫做Integral of Decay Curve 衰減曲線積分
對於通道剪枝產生的misjudging，提出了數學模型來描述

3 相關工作

權重量化
線性量化、最小最大量化、對數最小最大量化
低階近似
把一個卷積層分解成幾個卷積層，之前的方法有
奇異數分解、CP分解、Tucker分解
剪枝
剪枝有不同的粒度：元素級、kernel級、filter級（三維）、層級
元素級的靈活性最大，但不能減少推理時間和memory

4 低階近似和通道剪枝的結合

4.1 基於SVD的低階近似

假設N表示輸出通道的數量，C表示輸入通道的數量，d表示kernel的大小，則權重W可以reshape成二維的 $Nd \times dC$ 的矩陣，然後進行分解
$W=USV$
其中S是 $n \times n$ 的對角矩陣，對角線是W的奇異值
U是 $Nd \times n$ 的矩陣，V是 $n \times dC$ 的矩陣
然後把S截斷成 $k \times k$ 的對角矩陣 $W_k$ ，就是取前k個最大的奇異值，變成
$W_k=U_k S_k V_k$
$U_k$ 是 $Nd \times k$ 的矩陣， $V_k$ 是 $k \times dC$ 的矩陣
然後再變成
$W_k=U' V'$
$U'$ 和 $V'$ reshape成四維張量

4.2 泰勒剪枝

關鍵要找出最不重要的filter，那重要性指標 $\Theta_{TE}$ 怎麼確定呢？
定義重要性指標 $\Theta_{TE}$ 等於剪掉這個filter之後損失函數的增加，有的filter剪掉之後損失函數增加的也不多，有的filter則很敏感，然後用一階泰勒公式展開
$\Theta_{TE}=|C(h_i=0)-C(h_i)|=|\frac{\partial C}{\partial h_i} h_i|$

4.3 通道剪枝的misjudge

4.4 低階近似通道剪枝

用低階近似的方法，使得網絡結構都變成小filter的
通道剪枝

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

文獻閱讀（70）

文章目錄

1 縮寫 & 引用

2 abstract & introduction

1 縮寫 & 引用

2 abstract & introduction

3 相關工作

4 低階近似和通道剪枝的結合

4.1 基於SVD的低階近似

4.2 泰勒剪枝

4.3 通道剪枝的misjudge

4.4 低階近似通道剪枝

文獻閱讀（92）

文獻閱讀（82）

文獻閱讀（84）

文獻閱讀（93）神經網絡壓縮（CVPR 2019）

文獻閱讀（59）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結