文獻閱讀(70)

  • 題目:Exploiting Weight-Level Sparsity in Channel Pruning with Low-Rank Approximation
  • 時間:2019
  • 會議:ISCAS
  • 研究機構:中國科學技術大學

1 縮寫 & 引用

2 abstract & introduction


  • 題目:Deep Neural Network Acceleration Based on Low-Rank Approximated Channel Pruning
  • 時間:2020
  • 期刊:TCAS-1
  • 研究機構:中國科學技術大學

1 縮寫 & 引用

  • LAP: Low-rank Approximated channel Pruning低階近似減枝
  • IDC: Integral of Decay Curve衰減曲線積分
  • SVD: singular value decomposition奇異數分解

Exploiting Weight-Level Sparsity in Channel Pruning with Low-Rank Approximation 2019 ISCAS
Exploiting linear structure within convolutional networks for efficient evaluation 2014 NIPS

2 abstract & introduction

本篇論文的主要貢獻:

  1. 提出了一個減枝方法:低階近似通道剪枝 可以保持網絡結構的規則
  2. 低階近似時提出了基於範式的indicator
  3. 提出了一個evaluator,叫做Integral of Decay Curve 衰減曲線積分
  4. 對於通道剪枝產生的misjudging,提出了數學模型來描述

3 相關工作

  • 權重量化
    線性量化、最小最大量化、對數最小最大量化
  • 低階近似
    把一個卷積層分解成幾個卷積層,之前的方法有
    奇異數分解、CP分解、Tucker分解
  • 剪枝
    剪枝有不同的粒度:元素級、kernel級、filter級(三維)、層級
    元素級的靈活性最大,但不能減少推理時間和memory

4 低階近似和通道剪枝的結合

4.1 基於SVD的低階近似

假設N表示輸出通道的數量,C表示輸入通道的數量,d表示kernel的大小,則權重W可以reshape成二維的Nd×dCNd \times dC的矩陣,然後進行分解
W=USVW=USV
其中S是n×nn \times n的對角矩陣,對角線是W的奇異值
U是Nd×nNd \times n的矩陣,V是n×dCn \times dC的矩陣
然後把S截斷成k×kk \times k的對角矩陣WkW_k,就是取前k個最大的奇異值,變成
Wk=UkSkVkW_k=U_k S_k V_k
UkU_kNd×kNd \times k的矩陣,VkV_kk×dCk \times dC的矩陣
然後再變成
Wk=UVW_k=U' V'
UU'VV'reshape成四維張量

4.2 泰勒剪枝

關鍵要找出最不重要的filter,那重要性指標ΘTE\Theta_{TE}怎麼確定呢?
定義重要性指標ΘTE\Theta_{TE}等於剪掉這個filter之後損失函數的增加,有的filter剪掉之後損失函數增加的也不多,有的filter則很敏感,然後用一階泰勒公式展開
ΘTE=C(hi=0)C(hi)=Chihi\Theta_{TE}=|C(h_i=0)-C(h_i)|=|\frac{\partial C}{\partial h_i} h_i|

4.3 通道剪枝的misjudge

4.4 低階近似通道剪枝

在這裏插入圖片描述

  1. 用低階近似的方法,使得網絡結構都變成小filter的
  2. 通道剪枝
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章