[2018ECCV F] Data-Driven Sparse Structure Selection for Deep Neural Networks

Title Venue Type Code
Data-Driven Sparse Structure Selection for Deep Neural Networks ECCV F MXNet, Pytorch, Tensorflow

  • 一些詞彙約定
    filter: 卷積核,過濾器,3D-filter
    修剪:剪枝,裁剪。

Abstract

我們提出了一個簡單而有效的框架,以端到端方式學習和裁剪深度模型。在我們的框架中,首先引入了一種新的參數-比例因子來對特定結構(如神經元、組或剩餘塊)的輸出進行比例縮放。然後在這些因子上加入稀疏正則化,並採用改進的隨機加速近似梯度法(APG)求解該優化問題。通過使一些因子歸零,我們可以安全地移除相應的結構,從而刪除CNN中不重要的部分。與其他可能需要數千次試驗或反覆微調的結構選擇方法相比,我們的方法是完全端到端的培訓,沒有任何附加條件。

思路

  • 對每一層網絡的每一個輸出通道增加一個比例因子,然後使用改進的隨機加速近似梯度法(APG)方法對 LOSS 損數進行優化,使得模型學習過程中的各個層的不同的輸出通道變得更加的稀疏化,然後根據貢獻度裁剪無用的 filter ,裁剪後的模型不需要 finetuning 才能恢復模型的原始性能。

一些關鍵詞

  • 通道剪枝(由Feature map?)?卷積核剪枝?(針對核本身)
  • 合剪枝,迭代剪枝
  • 不需要 finetuning
  • 通道稀疏化
  • 結構化剪枝
  • 稀疏正則化優化剪枝

超參數

  1. 稀疏化剪枝係數。 LOSS 函數稀疏正則項係數γ\gamma

1 Introduction

方法操作對象

  • 卷積核

總述
在本文中,我們從另一個角度來共同學習和修剪CNN。

  • 首先,我們介紹了一種新的參數-比例因子,它對CNNs中某些特定結構(如神經元、組或塊)的輸出進行比例縮放。這些尺度因子使得CNN在參數很少的情況下具有更大的靈活性。
  • 然後,我們在這些尺度因子上添加稀疏正則化,使它們在訓練期間變爲零。
  • 最後,我們可以安全地去除對應於零尺度因子的結構,得到修剪後的模型

我們不需要額外的微調或多階段優化,它只在培訓中引入較小的成本。

貢獻

  1. 我們提出了一個統一的模型訓練和裁剪框架。特別地,通過對某些CNNs結構引入尺度因子和相應的稀疏正則化,將其表示爲一個聯合的稀疏正則化優化問題。
  2. 我們利用一種改進的隨機加速近似梯度(APG)方法,通過稀疏正則化聯合優化CNNs和尺度因子的權重。與以往採用啓發式方法強制稀疏的方法相比,我們的方法在不進行微調和多階段優化的情況下,具有更穩定的收斂性和更好的結果。
  3. 我們在幾個最先進的網絡上測試了我們提出的方法,PeleeNet, VGG,ResNet和ResNeXt

2 Related Works

  • 網絡剪枝(下面指的是非結構化剪枝)
    不規則稀疏權值的性質使得它們只能產生有效的壓縮,而不能從掛鐘時間方面得到更快的推斷。

  • 模型結構學習(輕量化網絡設計)

  • 具有跳過連接的CNNs

在本文中,我們提出了一種數據驅動的方法來學習這種網絡的結構。通過在訓練過程中對殘塊進行縮放和剪枝,我們的方法可以得到更緊湊的結果

3 Algorithm

相關圖解

與直接將同一組中的權重推到零不同,我們嘗試強制將該組的輸出推到零,從而實現模型的通道剪枝

  • 圖1. 我們的網絡架構方法

在這裏插入圖片描述

在訓練過程中,將絕對值小於閾值的尺度參數設置爲0。與[26]相比,我們的方法更通用、更有效

  • 首先,引入比例因子比重用BN參數更普遍。
    一方面,一些網絡沒有批處理的規範化層,如AlexNet和VGG ;
    另一方面,當我們在對象檢測或語義分割任務上對預訓練模型進行微調時,由於批處理的規模較小,批處理歸一化的參數通常是固定的。
  • 其次,[26]的優化是啓發式的,需要迭代剪枝和再訓練。相比之下,我們的優化在端到端方式下更穩定。最重要的是,[26]可以被看作是我們方法的一個特例。

[26]
[2017ICCV F] Learning Efficient Convolutional Networks through Network Slimming

算法流程

我們引入了修剪神經元的通道輸出的比例因子。經過訓練,去除係數爲零的濾波器,將使網絡更加緊湊。
【v】裁剪流程:
.----------------------------------------------------
1、LOSS 函數加入稀疏正則化,採用 L1 正則化,引入稀疏 γ\gamma 係數,用來衡量通道的貢獻度
.-------------------
2、參數的更新採用 改進的隨機加速近似梯度法(APG)
.-------------------
3、對每一層的網絡的輸出添加稀疏係數 γ\gamma
.-------------------
4、稀疏誘導訓練與裁剪,迫使稀疏係數 γ\gamma 在訓練的過程中變成 0
-.------------------
5、裁剪稀疏係數 γ\gamma 小的通道,即對應表式該通道的貢獻度爲 0 的通道
.-------------------
6、完全去掉被置 0 的通道,即對應相應的卷積核
.-------------------

算法的數學實現

4 Experiments

實驗對象

實驗數據集

  • CIFAR-10
  • CIFAR-100
  • ImageNet

實驗模型

  • VGG16
  • ResNeXt
  • ResNet
  • PeleeNet
  • DenseNet

實驗結果

  • 表1:ResNet-50的網絡架構和我們爲ImageNet修剪的ResNets。
    在這裏插入圖片描述

  • 表2:ImageNet數據集上的結果。
    在這裏插入圖片描述

  • 表3:在ImageNet數據集上的PeleeNet結果
    在這裏插入圖片描述

  • 表4:對比實驗。幾種最先進的修剪方法在ResNet和VGG16網絡
    在這裏插入圖片描述

  • 表 5 :剪枝 ResNeXt-38與DenseNet-121的比較;

  • 表 6 :不同優化方法的比較
    在這裏插入圖片描述

論文評價

  • 優點
  1. 超參數少,只有一個超參數
  2. 不需要 finetuning 。將剪枝問題轉化爲優化問題,直接端到端,訓練結束後的模型不需要進行 finetuning。

其他文獻

  • 解讀文獻

Data-Driven Sparse Structure Selection for Deep Neural Networks 論文翻譯_人工智能_little豪斯-CSDN博客
https://blog.csdn.net/sinat_35188997/article/details/78180767

模型壓縮 | 結構性剪枝Data-Driven Sparse Structure Selection 以及實際剪枝實現流程_網絡_HongYuSuiXinLang的博客-CSDN博客
https://blog.csdn.net/HongYuSuiXinLang/article/details/82592585

2018年06月10日_阿華仔ljh_新浪博客
http://blog.sina.com.cn/s/blog_14a90ddfb0102xy50.html

  • 相似文獻

Scalpel: Customizing DNN Pruning to the Underlying Hardware Parallelism

[2017ICCV F] Learning Efficient Convolutional Networks through Network Slimming

  • 應用項目
    待補充
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章