文献阅读(70)

  • 题目:Exploiting Weight-Level Sparsity in Channel Pruning with Low-Rank Approximation
  • 时间:2019
  • 会议:ISCAS
  • 研究机构:中国科学技术大学

1 缩写 & 引用

2 abstract & introduction


  • 题目:Deep Neural Network Acceleration Based on Low-Rank Approximated Channel Pruning
  • 时间:2020
  • 期刊:TCAS-1
  • 研究机构:中国科学技术大学

1 缩写 & 引用

  • LAP: Low-rank Approximated channel Pruning低阶近似减枝
  • IDC: Integral of Decay Curve衰减曲线积分
  • SVD: singular value decomposition奇异数分解

Exploiting Weight-Level Sparsity in Channel Pruning with Low-Rank Approximation 2019 ISCAS
Exploiting linear structure within convolutional networks for efficient evaluation 2014 NIPS

2 abstract & introduction

本篇论文的主要贡献:

  1. 提出了一个减枝方法:低阶近似通道剪枝 可以保持网络结构的规则
  2. 低阶近似时提出了基于范式的indicator
  3. 提出了一个evaluator,叫做Integral of Decay Curve 衰减曲线积分
  4. 对于通道剪枝产生的misjudging,提出了数学模型来描述

3 相关工作

  • 权重量化
    线性量化、最小最大量化、对数最小最大量化
  • 低阶近似
    把一个卷积层分解成几个卷积层,之前的方法有
    奇异数分解、CP分解、Tucker分解
  • 剪枝
    剪枝有不同的粒度:元素级、kernel级、filter级(三维)、层级
    元素级的灵活性最大,但不能减少推理时间和memory

4 低阶近似和通道剪枝的结合

4.1 基于SVD的低阶近似

假设N表示输出通道的数量,C表示输入通道的数量,d表示kernel的大小,则权重W可以reshape成二维的Nd×dCNd \times dC的矩阵,然后进行分解
W=USVW=USV
其中S是n×nn \times n的对角矩阵,对角线是W的奇异值
U是Nd×nNd \times n的矩阵,V是n×dCn \times dC的矩阵
然后把S截断成k×kk \times k的对角矩阵WkW_k,就是取前k个最大的奇异值,变成
Wk=UkSkVkW_k=U_k S_k V_k
UkU_kNd×kNd \times k的矩阵,VkV_kk×dCk \times dC的矩阵
然后再变成
Wk=UVW_k=U' V'
UU'VV'reshape成四维张量

4.2 泰勒剪枝

关键要找出最不重要的filter,那重要性指标ΘTE\Theta_{TE}怎么确定呢?
定义重要性指标ΘTE\Theta_{TE}等于剪掉这个filter之后损失函数的增加,有的filter剪掉之后损失函数增加的也不多,有的filter则很敏感,然后用一阶泰勒公式展开
ΘTE=C(hi=0)C(hi)=Chihi\Theta_{TE}=|C(h_i=0)-C(h_i)|=|\frac{\partial C}{\partial h_i} h_i|

4.3 通道剪枝的misjudge

4.4 低阶近似通道剪枝

在这里插入图片描述

  1. 用低阶近似的方法,使得网络结构都变成小filter的
  2. 通道剪枝
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章