Title	Venue	Type	Code
Data-Driven Sparse Structure Selection for Deep Neural Networks	ECCV	`F`	MXNet, Pytorch, Tensorflow

文章目錄

4 Experiments

一些詞彙約定
filter：卷積核，過濾器，3D-filter
修剪：剪枝，裁剪。

Abstract

我們提出了一個簡單而有效的框架，以端到端方式學習和裁剪深度模型。在我們的框架中，首先引入了一種新的參數-比例因子來對特定結構(如神經元、組或剩餘塊)的輸出進行比例縮放。然後在這些因子上加入稀疏正則化，並採用改進的隨機加速近似梯度法(APG)求解該優化問題。通過使一些因子歸零，我們可以安全地移除相應的結構，從而刪除CNN中不重要的部分。與其他可能需要數千次試驗或反覆微調的結構選擇方法相比，我們的方法是完全端到端的培訓，沒有任何附加條件。

思路

對每一層網絡的每一個輸出通道增加一個比例因子，然後使用改進的隨機加速近似梯度法(APG)方法對 LOSS 損數進行優化，使得模型學習過程中的各個層的不同的輸出通道變得更加的稀疏化，然後根據貢獻度裁剪無用的 filter ，裁剪後的模型不需要 finetuning 才能恢復模型的原始性能。

一些關鍵詞

通道剪枝（由Feature map？）？卷積核剪枝？（針對核本身）
合剪枝，迭代剪枝
不需要 finetuning
通道稀疏化
結構化剪枝
稀疏正則化優化剪枝

超參數

稀疏化剪枝係數。 LOSS 函數稀疏正則項係數 $\gamma$

1 Introduction

方法操作對象

卷積核

總述
在本文中，我們從另一個角度來共同學習和修剪CNN。

首先，我們介紹了一種新的參數-比例因子，它對CNNs中某些特定結構(如神經元、組或塊)的輸出進行比例縮放。這些尺度因子使得CNN在參數很少的情況下具有更大的靈活性。
然後，我們在這些尺度因子上添加稀疏正則化，使它們在訓練期間變爲零。
最後，我們可以安全地去除對應於零尺度因子的結構，得到修剪後的模型

我們不需要額外的微調或多階段優化，它只在培訓中引入較小的成本。

貢獻

我們提出了一個統一的模型訓練和裁剪框架。特別地，通過對某些CNNs結構引入尺度因子和相應的稀疏正則化，將其表示爲一個聯合的稀疏正則化優化問題。
我們利用一種改進的隨機加速近似梯度(APG)方法，通過稀疏正則化聯合優化CNNs和尺度因子的權重。與以往採用啓發式方法強制稀疏的方法相比，我們的方法在不進行微調和多階段優化的情況下，具有更穩定的收斂性和更好的結果。
我們在幾個最先進的網絡上測試了我們提出的方法，PeleeNet, VGG，ResNet和ResNeXt

2 Related Works

網絡剪枝（下面指的是非結構化剪枝）
不規則稀疏權值的性質使得它們只能產生有效的壓縮，而不能從掛鐘時間方面得到更快的推斷。
模型結構學習（輕量化網絡設計）
具有跳過連接的CNNs

在本文中，我們提出了一種數據驅動的方法來學習這種網絡的結構。通過在訓練過程中對殘塊進行縮放和剪枝，我們的方法可以得到更緊湊的結果

3 Algorithm

算法流程

我們引入了修剪神經元的通道輸出的比例因子。經過訓練，去除係數爲零的濾波器，將使網絡更加緊湊。
【v】裁剪流程：
.----------------------------------------------------
1、LOSS 函數加入稀疏正則化，採用 L1 正則化，引入稀疏 $\gamma$ 係數，用來衡量通道的貢獻度
.-------------------
2、參數的更新採用 改進的隨機加速近似梯度法(APG)
.-------------------
3、對每一層的網絡的輸出添加稀疏係數 $\gamma$
.-------------------
4、稀疏誘導訓練與裁剪，迫使稀疏係數 $\gamma$ 在訓練的過程中變成 0
-.------------------
5、裁剪稀疏係數 $\gamma$ 小的通道，即對應表式該通道的貢獻度爲 0 的通道
.-------------------
6、完全去掉被置 0 的通道，即對應相應的卷積核
.-------------------

算法的數學實現

4 Experiments

實驗對象

實驗數據集

CIFAR-10
CIFAR-100
ImageNet

實驗模型

VGG16
ResNeXt
ResNet
PeleeNet
DenseNet

實驗結果

表1：ResNet-50的網絡架構和我們爲ImageNet修剪的ResNets。
表2：ImageNet數據集上的結果。
表3：在ImageNet數據集上的PeleeNet結果
表4：對比實驗。幾種最先進的修剪方法在ResNet和VGG16網絡
表 5 ：剪枝 ResNeXt-38與DenseNet-121的比較；
表 6 ：不同優化方法的比較

論文評價

優點

超參數少，只有一個超參數
不需要 finetuning 。將剪枝問題轉化爲優化問題，直接端到端，訓練結束後的模型不需要進行 finetuning。

其他文獻

解讀文獻

Data-Driven Sparse Structure Selection for Deep Neural Networks 論文翻譯_人工智能_little豪斯-CSDN博客
https://blog.csdn.net/sinat_35188997/article/details/78180767

模型壓縮 | 結構性剪枝Data-Driven Sparse Structure Selection 以及實際剪枝實現流程_網絡_HongYuSuiXinLang的博客-CSDN博客
https://blog.csdn.net/HongYuSuiXinLang/article/details/82592585

2018年06月10日_阿華仔ljh_新浪博客
http://blog.sina.com.cn/s/blog_14a90ddfb0102xy50.html

相似文獻

Scalpel: Customizing DNN Pruning to the Underlying Hardware Parallelism

[2017ICCV F] Learning Efficient Convolutional Networks through Network Slimming

應用項目
待補充

[2018ECCV F] Data-Driven Sparse Structure Selection for Deep Neural Networks

文章目錄

Abstract

1 Introduction

2 Related Works

3 Algorithm

相關圖解

算法流程

算法的數學實現

4 Experiments

實驗對象

實驗結果

論文評價

其他文獻

深度學習壓縮模型精度調研

RuntimeError: CUDA out of memory. Tried to allocate 30.00 MiB

matplotlib 更改繪圖中直線與數據點的顏色

pycharm怎麼設置讓製表符顯示爲→

latex 一些錯誤（持續更新）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結