[ICLR19] THE LOTTERY TICKET HYPOTHESIS: FINDING SPARSE, TRAINABLE NEURAL NETWORKS

https://me.csdn.net/tongjilixue 

我觉得指出我译文一些重要部分出现错误,我会理解并更正,这种上来骂人的我是真不懂了,敢问你是看不懂中国字还是看不懂英文?难道我们自愿在CSDN上面写笔记是为了给你挑语病的?你有不懂的可以在评论区问问题,我看到或者有其他大佬看到可以帮你解决,

再说你这么傲娇,还上啥CSDN,自己去Git上提Issue不香吗?有问题paper在peer review不去问作者不香吗?跑过来喷我是什么逻辑?我本来就不是做这篇论文的方向,只是认认真真看了论文听了别人的presentation自己翻译一部分方便以后有论文思路Mark,然后把一部分实操的内容机翻一部分有问题?你厉害你可以自己好好写写博客,自然不用看我这篇彩笔Notes。

本篇是ICLR2019的两篇Best Paper之一。另一篇:ORDERED NEURONS: INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORKS


ABSTRACT

神经网络剪枝技术可以在不影响精度的前提下,将训练网络的参数数减少90%以上,降低存储需求,提高传播的计算性能。然而,当前的经验是,剪枝产生的稀疏架构从一开始就很难训练,这同样可以提高训练性能。

我们发现,一种标准的剪枝技术可以自然地揭示子网络subnetworks,这些子网络的初始化使它们能够有效地进行训练。基于这些结果,我们明确了彩票假设lottery ticket hypothesis:密集的、随机初始化的、前馈网络包含子网络(lottery ticket),这些子网络经过隔离训练,在相同次数的迭代中达到与原始网络相当的测试精度。我们找到的中奖彩票的原始初始化彩票:它们的连接具有初始权重,这使得训练特别有效。

我们提出了一个算法,以确定中奖彩票和一系列的实验,支持彩票假说和这些偶然初始化的重要性。我们始终发现,MNIST和CIFAR10的中奖彩票小于几个全连接和卷积前馈架构的10-20%。在此规模以上,我们发现中奖彩票(lottery ticket)比原来的网络学习速度更快,达到更高的测试精度。


1 INTRODUCTION

从神经网络中消除不必要权重的技术(剪枝)) (LeCun et al., 1990; Hassibi & Stork, 1993; Han et al., 2015; Li et al., 2016)可以在不影响精度的情况下将参数减少90%以上。这样做会减少规模(Han et al., 2015; Hinton et al., 2015)或资源消耗(Yang et al., 2017; Molchanov et al., 2016; Luo et al., 2017)训练后的网络,使传播更有效。

然而,如果一个网络的规模可以缩小,那么我们为什么不训练这个更小的体系结构来提高训练的效率呢?现在的经验是,通过修剪发现的架构从一开始就很难训练,达到的精度也低于原始网络

考虑一个例子。在图1中,我们随机抽取一个用于MNIST的全连接网络(full connected network)和一个用于CIFAR10的卷积网络的子网络,并对其进行训练。LeCun et al.(1990)和Han et al.(2015)采用随机抽样的方法对非结构化剪枝的效果进行了建模。在不同的稀疏度级别上,虚线跟踪最小验证损失的迭代和迭代时的测试精度。网络越稀疏,学习越慢,最终的测试精度越低

在本文中,我们证明了始终存在较小的子网络,它们从一开始就进行训练,学习速度至少与较大的子网络一样快,同时达到了类似的测试精度。图1中的实线显示了我们找到的网络。基于这些结果,我们提出了彩票(lottery ticket)假设。

The Lottery Ticket Hypothesis. A randomly-initialized, dense neural network contains a subnetwork that is initialized such that—when trained in isolation—it can match the test accuracy of the original network after training for at most the same number of iterations. 

一个随机初始化的密集神经网络包含一个初始化的子网,当在隔离状态下训练时,经过最多相同迭代次数的训练,它可以匹配原始网络的测试精度。

更正式地说,考虑一个密集的前馈神经网络f(x ; \theta)与初始参数\theta=\theta_{0} \sim \mathcal{D}_{\theta}。当对训练集进行随机梯度下降(SGD)优化时,f在迭代次数j处达到最小验证损失l,测试精度为a。此外,考虑使用mask m \in\{0,1\}^{|\theta|}在初始化是m \odot \theta_{0}时训练f(x ; m \odot \theta)。在相同的训练集(m固定)上使用SGD进行优化时,f在迭代j^{\prime}处达到最小验证损失l^{\prime},测试精度为a^{\prime}。彩票(lottery ticket)假设预测了\exists m时候j^{\prime} \leq j, a^{\prime} \geq a\|m\|_{0} \ll|\theta|

我们发现一种标准的剪枝技术可以自动地从全连通和卷积前馈网络中分离出这些可训练的子网络。我们指定这些可训练的子网络f\left(x ; m \odot \theta_{0}\right),中奖彩票(lottery ticket),因为我们找到的那些中奖彩票(lottery ticket)是通过组合权重和能够学习的连接来初始化彩票的。当它们的参数被随机重新初始化时\left(f\left(x ; m \odot \theta_{0}^{\prime}\right),\theta_{0}^{\prime} \sim \mathcal{D}_{\theta}\right)。我们的中奖彩票(lottery ticket)不再与原始网络的性能匹配,这表明这些较小的网络不能有效地训练,除非它们被适当地初始化

Identifying winning tickets. 我们通过训练一个网络并修剪它的最小量级权重来确定一张中奖彩票(lottery ticket),其余未修剪的连接构成了中奖彩票(lottery ticket)的体系结构。对于我们的工作来说,每个未修剪的连接s值在训练之前都会从原始网络重置为初始化值。这构成了我们的中心实验:

  1. 随机初始化一个神经网络f(x ; \theta_0),参数初始化\theta_{0} \sim \mathcal{D}_{\theta}
  2. 训练网络进行j次迭代,得到参数\theta_{j}
  3. \theta_{j} 修剪p %的参数,创建一个mask m
  4. 重置其余的参数在\theta_{0}他们的价值观,创造了这张中奖彩票f\left(x ; m \odot \theta_{0}\right)

如前所述,这种剪枝方法是一次性的:对网络进行一次训练,剪枝p%的权重,重置剩余的权重。然而,在本文中,我们关注的是迭代剪枝,它在n轮内重复训练、修剪和重置网络;每一轮都删除前一轮存活下来的p^{\frac{1}{n}} \%的权重。我们的结果表明,迭代剪枝可以在较小的规模下找到匹配原始网络精度的中奖彩票。

Results 我们通过几个优化策略(SGD、momentum和Adam),在MNIST的全连接架构和CIFAR10的卷积架构中,使用诸如dropout、weight衰减、batch norm和ResNet等技术来识别中奖彩票。我们使用了一种非结构化的剪枝技术,所以这些中奖彩票是稀疏的。在更深层次的网络中,我们基于剪枝的策略对学习速度非常敏感:它需要在较高的学习速度下进行热身,以找到中奖彩票。我们找到的中奖彩票是原来的10-20%(或更少)网络(小尺寸)。在此范围内,它们在最多相同的迭代次数(相应的训练时间)中满足或超过原始网络的测试精度(相应的精度)。当随机重新初始化中奖彩票时,中奖彩票的性能要差得多,这意味着结构本身不能解释中奖彩票的成功

The Lottery Ticket Conjecture 回到我们的动机问题,我们将我们的假设扩展为一个未经验证的猜想,即SGD寻找并训练一个初始化良好的权重子集。密集的、随机初始化的网络比稀疏的网络更容易训练,稀疏的网络是由剪枝产生的,因为有更多的可能的子网络,训练可以从中收回一张中奖彩票。

Contributions

  • 我们证明了剪枝揭示了可训练的子网络,这些子网络达到了与原始网络相当的测试精度,而原始网络在相当数量的迭代中派生了这些子网络。
  • 我们证明了剪枝发现中奖彩票比原来的网络学习更快,同时达到更高的测试精度和更好的泛化。
  • 我们提出彩票假说作为一个新的视角,对神经网络的组成来解释这些发现。

Implications 本文对彩票假说进行了实证研究。既然我们已经证明了中奖彩票的存在,我们希望利用这一知识:

  • 提高训练成绩。由于中奖彩票可以从一开始就单独进行训练,我们希望能够设计出能够搜索中奖彩票并尽早进行修剪的训练方案。
  • 设计更好的网络。中奖彩票揭示了稀疏体系结构和特别善于学习的初始化的组合。我们可以从中奖中获得灵感,设计具有相同属性的新体系结构和初始化方案,这有助于学习。我们甚至可以把为一项任务发现的中奖彩票转让给许多其他任务。
  • 提高我们对神经网络的理论理解。我们可以研究为什么随机初始化的前馈网络似乎包含中奖彩票和优化理论研究(Du et al., 2019)和泛化的潜在含义(Zhou et al., 2018; Arora et al., 2018)。

2 WINNING TICKETS IN FULLY-CONNECTED NETWORKS

在本节中,我们将彩票假设应用于训练了MNIST的全连接网络。我们使用Lenet-300-100体系结构(LeCun et al., 1998),如图2所示。我们遵循第1节的大纲:在随机初始化和训练网络之后,我们修剪网络并将剩余的连接重置为初始化。我们使用一个简单的分层剪枝启发式:删除每一层中大小最低的权重的百分比(如Han等人(2015))。连接到输出的修剪速度是网络其余部分的一半。我们在附录G中探讨了其他超参数,包括学习率、优化策略(SGD、momentum)、初始化方案和网络大小。

Notation P_{m}=\frac{\|m\|_{0}}{|\theta|}是mask m的稀疏部分,例如,当75%的权重被修剪时,Pm = 25%。

Iterative pruning 我们发现中奖的彩票比原来的网络学习得更快。图3绘制了训练不同程度反复修剪的中奖彩票时的平均测试准确度。错误栏是五次运行的最小值和最大值。在第一轮剪枝中,网络学习速度更快,且剪枝越多,测试精度越高(图3中的左图)。Pm = 51.3%,比原网络更快达到更高的测试精度,但比Pm = 21.1%时慢。

当Pm < 21.1%时,学习变慢(图中)。

当Pm = 3.6%时,中奖票回归到原始网络的性能。类似的模式在本文中重复出现。

图4a总结了每次迭代修剪20%时所有修剪级别的这种行为(蓝色)。左边是每个网络达到最小验证损失的迭代(即,当早期停止准则将停止训练时)与修剪后剩余重量百分比的关系;中间是迭代时的测试精度。我们使用满足早期停止条件的迭代作为网络学习速度的代理。

当Pm从100%下降到21%时,中奖的彩票学得更快,在这一点上提前停止比原来的网络早38%。进一步的修剪会导致学习变慢,

当Pm = 3.6%时恢复到原始网络的early stopping性能。修剪后测试精度提高,Pm = 13.5%时提高0.3个百分点以上;

当Pm = 3.6%时,准确率下降,恢复到原始网络的水平。

在early stopping时,训练精度(图4a右)随着修剪以类似于测试精度的模式增加,这似乎意味着中奖彩票优化得更有效,但不能更好地推广。然而,在迭代50,000(图4b)时,尽管几乎所有网络的训练精度都达到了100%(附录D,图12),迭代修剪的中奖彩票仍然可以看到测试精度提高了0.35个百分点。这意味着对于中奖彩票,训练精度和测试精度之间的差距更小,这说明改进了泛化效果(generalization)。

Random reinitialization 为了度量中奖彩票初始化的重要性,我们保留了中奖彩票的结构(即mask m),但随机样本的一个新初始化\theta_{0}^{\prime} \sim \mathcal{D}_{\theta }。我们随机地重新初始化每张中奖彩票三次,在图4中每点总共15次。我们发现初始化对于中奖彩票的有效性至关重要。

图3中的右图显示了迭代剪枝的实验。除了原始网络和中奖彩票在Pm = 51%和21%是随机重新初始化实验。当中奖彩票被剪枝时,它们学习得更快,而当随机重新初始化时,它们学习得越来越慢。

本实验更广泛的结果是图4a中的橙色线。与中奖彩票不同的是,重新初始化的网络学习速度比原来的网络越来越慢,并且在进行少量修剪之后就会失去测试精度。

当Pm = 21.1%时,重新初始化的迭代中奖彩票的平均测试精度从原始精度下降,而中奖彩票的测试精度为2.9%。

当Pm = 21%时,中奖彩票比重新初始化时达到最小验证损失2.51倍,且更精确0.5个百分点。

所有网络达到100%的培训准确率为Pm 5%;因此,图4b表明中奖彩票的泛化效果明显好于随机重新初始化时的泛化效果。

本实验支持了彩票初始化的假设,强调初始化:原始初始化经受住了修剪并从中受益,而随机重新初始化的性能立即受到影响并稳步下降。

One-shot pruning 虽然迭代剪枝可以提取出更小的中奖彩票,但是重复的训练意味着寻找这些彩票的成本很高。一次剪枝就可以在没有重复训练的情况下识别出中奖彩票。图4c为一次修剪(绿色)和随机重初始化(红色)的结果;一次性剪枝确实能找到中奖的彩票。

67.5 \% \geq P_{m} \geq 17.6 \%时,平均中奖票的验证精度比原网络提前达到最低。

95.0 \% \geq P_{m} \geq 5.17 \%时,测试精度高于原网络。

然而,在较小的网络规模下,迭代修剪的中奖彩票学习速度更快,并达到更高的测试精度。图4c中的绿线和红线复制在图4a的对数轴上,使得这个性能差距更加明显。由于我们的目标是确定最小可能的中奖彩票,所以我们在本文的其余部分将重点放在迭代剪枝上。


3 WINNING TICKETS IN CONVOLUTIONAL NETWORKS

这里,我们将彩票假设应用到CIFAR10上的卷积网络中,增加了学习问题的复杂性和网络的规模。我们考虑图2中的conv2、conv4和conv6架构,它们是VGG (Simonyan &Zisserman, 2014)的家庭。网络有两个、四个或六个卷积层,然后是两个完全连接的层;每两个卷积层之后就会出现最大池。这些网络覆盖了从几乎完全连接到传统卷积网络的范围,卷积层参数在conv2中的比例不到1%,而在conv6中的比例接近三分之二。

Finding winning tickets 图5(顶部)中的实线显示了按图2中的每层剪枝率对conv2(蓝色)、conv4(橙色)和conv6(绿色)进行的迭代彩票实验。第2节中Lenet的模式重复出现:当网络被剪枝时,它学习得更快,与原始网络相比,测试精度提高了。在这种情况下,结果更加明显。

胜出彩票对于conv2 (Pm = 8.8%)、conv4 (Pm = 9.2%)和conv6 (Pm = 15.1%)的验证损失最小,最多快3.5倍。对于conv2 (Pm = 4.6%)、对于conv4 (Pm = 11.1%)和对于conv6 (Pm = 26.4%),测试准确度的最佳提高幅度分别为3.4个百分点、3.5个百分点和3.3个百分点。当Pm >为2%时,这三个网络的测试精度都保持在原来的平均水平之上。

在第2节中,early stopping迭代的训练精度随着测试精度的提高而提高。然而,在conv2的迭代为20,000,conv4的迭代为25,000,conv6的迭代为30,000(与原始网络的最终训练迭代对应的迭代),

当Pm≥2%时,所有网络的训练精度均达到100%(附录D,图13)和中奖彩票仍保持较高的测试精度右下角(图5)。这意味着对于中奖彩票来说,测试和训练的准确性之间的差距更小,这表明它们具有更好的泛化性。

Random reinitialization 我们重复第2节中的随机重新初始化实验,如图5中的虚线所示。这些网络在不断修剪之后,学习的时间也越来越长。就像MNIST上的Lenet(第2节)一样,对于随机重新初始化实验,测试精度下降得更快。然而,与Lenet不同的是,对于conv2和conv4,早期停止时间的测试精度最初保持稳定,甚至有所提高,这表明在中等水平的剪枝中,仅剪枝中奖彩票的结构可能会导致更高的精度

Dropout dropout(Srivastava et al.)通过随机禁用部分单元(即,随机抽取一个子网络)。Baldi,Sadowski(2013)将dropout描述为同时训练所有子网络的集合。由于彩票假说表明,这些子网络中有一个包含中奖彩票,因此很自然地会问,dropout和我们寻找中奖彩票的策略是否相互作用。

图6显示了训练的conv2、conv4和conv6的结果,dropout为0.5。虚线是没有dropout的网络性能(图5中的实线)。4 .我们继续寻找中奖的门票,当训练与dropout。

Dropout增加了初始测试精度(对于conv2、conv4和conv6,平均分别为2.1、3.0和2.4个百分点),迭代剪枝进一步提高了初始测试精度(平均分别增加了2.3、4.6和4.7个百分点)。与以前一样,迭代剪枝使学习变得更快,但是在conv2的情况下,学习就不那么显著了。

这些改进表明,我们的迭代剪枝策略以互补的方式与dropout交互。Srivastava等(2014)观察到,dropout在最终网络中诱导稀疏激活;有可能dropout导致的稀疏性启动了一个需要修剪的网络。如果是,目标权重的退出技术(Wan et al., 2013)或学习每个权重的退出概率s (Molchanov et al., 2017; Louizos et al., 2018)可能会使中奖彩票更容易找到。


4 VGG AND RESNET FOR CIFAR10

在这里,我们研究了网络彩票假设,唤起了在实践中使用的体系结构和技术。具体来说,我们考虑的是vgg风格的深卷积网络(CIFAR10 Simonyan &上的VGG-19)Zisserman(2014))和残余网络(Resnet-18 on CIFAR10 He et al.(2016))。

这些网络使用批处理范数、重量衰减、降低学习率计划和增强训练数据进行训练。我们继续为所有这些结构寻找中奖的门票;然而,我们的方法迭代剪枝,是敏感的特定的学习率使用。在这些实验中,我们没有测量early stopping的时间(对于这些较大的网络,提前停止的时间与学习速率表纠缠在一起),而是绘制了训练过程中几个时刻的准确性,以说明准确性提高的相对速度。

Global pruning. 在Lenet和Conv-2/4/6上,我们以相同的速度分别修剪每一层。对于Resnet-18和VGG-19,我们稍微修改了这个策略:我们在全局内修剪这些更深层次的网络,删除所有卷积层上的最低量级权重。

在附录I.1中,我们发现全局剪枝确定了Resnet-18和VGG-19的较小的中奖彩票。我们对这种行为的推测解释如下:对于这些更深层次的网络,某些层的参数要比其他层多得多。

例如,VGG-19的前两个卷积层有1728和36864个参数,后一个卷积层有235万个参数。当所有层都以相同的速度修剪时,这些更小的层就成为瓶颈,阻止我们识别出最小的可能中奖彩票。全局修剪使避免这个陷阱成为可能。

VGG-19. 我们研究了Liu等人(2019)对CIFAR10的改型VGG-19;我们使用相同的训练机制和超参数:160 epoch(112,480迭代)和SGD动量(0.9),并在80和120个纪元时将学习率降低10倍。这个网络有2000万个参数。图7显示了VGG-19在两个初始学习率为0.1 (Liu et al.(2019))和0.01时的迭代剪枝和随机重新初始化结果。

在较高的学习速度下,迭代剪枝并不会找到中奖的彩票,并且其性能并不比随机重新初始化剪枝后的网络好。然而,在较低的学习速率下,通常的模式会重新出现,子网络的准确率保持在原始精度的1个百分点以内,而Pm为3.5%。(它们不是中奖彩票,因为它们与最初的准确性不符)

当随机重新初始化子网时,由于采用与本文其他实验相同的方法对其进行剪枝,子网的精度会降低。虽然这些子网络在早期的训练中比未修剪的网络学习得更快(图7左),但是由于初始学习率较低,这种准确性优势在稍后的训练中逐渐减弱。然而,这些子网络仍然比重新初始化时学习得更快。

为了弥补低学习率的彩票行为与高学习率的准确性优势之间的差距,我们研究了线性学习率在k次迭代中从0到初始学习率预热的效果。

在学习速率0.1下,使用(k = 10000,绿线)训练VGG-19,将未修剪网络的测试精度提高约1个百分点。这使找到中奖彩票成为可能,当下午1.5%超过这个初始精度。

Resnet-18. Resnet-18 (He et al., 2016)是一个为CIFAR10设计的具有剩余连接residual connections的20层卷积网络。它有271,000个参数。我们使用动量为0.9的SGD对网络进行30000次迭代训练,在20,000和25,000次迭代时,学习率降低了10倍。图8显示了以0.1 (He et al.(2016))和0.01的学习速率迭代剪枝和随机重新初始化的结果。

这些结果在很大程度上反映了VGG的结果:迭代剪枝发现中奖彩票在较低的学习率,但不是较高的学习率。在较低的学习率下(41.7% Pm 21.9%),最佳中奖彩票的准确率为89.5%,在较高的学习率下(90.5%),低于原网络的准确率。在较低的学习速度下,中奖彩票最初的学习速度会再次加快(图8的左图),但在训练后期较高的学习速度下(右图),中奖彩票的学习速度会落后于未修剪的网络。

在较高的学习速度下,热身训练的中奖彩票与未修剪网络的准确率差距缩小,在Pm = 27.1%时达到90.5%的测试准确率,学习速度为0.03(热身,k = 20000)。对于这些超参数,我们仍然可以在Pm 11.8%时找到中奖彩票。然而,即使进行了热身,我们也无法找到超参数,以0.1的原始学习率来识别中奖彩票。


5 DISCUSSION

现有的神经网络剪枝研究(如Han et al.(2015))表明,神经网络学习的函数往往可以用更少的参数表示。修剪通常通过训练原始网络、删除连接和进一步微调来进行。实际上,初始训练初始化修剪后的网络的权重,以便在微调期间它可以独立地学习。我们试图确定类似的稀疏网络是否可以从一开始就学习。我们发现,本文所研究的体系结构可靠地包含了这样的可训练子网络,彩票假设提出了这一性质在一般情况下是适用的。我们对中奖彩票的存在和性质的实证研究引发了一系列后续问题。

The importance of winning ticket initialization. 当随机重新初始化中奖彩票时,中奖彩票的学习速度较慢,测试精度较低,这表明初始化对中奖彩票的成功非常重要。对这种行为的一种可能解释是,这些初始权重接近于它们的最终权重训练后认为,在最极端的情况下,他们已经培训。然而,附录F中的实验表明,中奖彩票权重比其他权重移动得更远。这表明初始化的好处与优化算法、数据集和模型有关。例如,中奖彩票初始化可能落在损失景观的一个区域,该区域特别适合使用所选的优化算法进行优化。

Liu等人(2019)发现修剪后的网络在随机重新初始化时确实是可训练的,这似乎与传统的智慧和我们的随机重新初始化实验相矛盾。例如,在VGG-19上(我们共享相同的设置),他们发现修剪了高达80%的网络和随机重新初始化的网络匹配原始网络的准确性。我们在图7中所做的实验证实了这些发现在这种稀疏性水平下(Liu等人没有在此水平下提供数据)。

然而,在进一步剪枝之后,初始化很重要:当VGG-19剪枝最多98.5%时,我们发现中奖彩票;当重新初始化时,这些票据的精度会降低很多。我们假设,在一定程度上,稀疏度高的超参数化网络可以被成功地修剪、初始化和再训练;然而,在此之后,经过严格修剪的、不太严重的超顺化网络只能通过偶然的初始化来保持准确性。

The importance of winning ticket structure. 产生中奖彩票的初始化安排在特定的稀疏体系结构中。由于我们通过大量使用训练数据来发现中奖彩票,我们假设中奖彩票的结构编码了一种针对当前学习任务的归纳偏见。科恩,Shashua(2016)表明,深度网络结构中嵌入的归纳偏差决定了它能够比浅层网络更有效地分离参数的数据类型;虽然科恩,Shashua(2016)专注于卷积网络的池几何,类似的效果可能在中奖彩票的结构中发挥作用,使他们能够学习,即使是在严重修剪。

Implications for neural network optimization. 中奖彩票可以达到与原始的、未经修剪的网络相同的精度,但参数明显更少。这一发现与最近关于神经网络训练中参数化作用的研究有关。例如,Du等人(2019)证明了用SGD训练的充分参数化双层relu网络(具有固定大小的第二层)收敛到全局最优。因此,一个关键的问题是,对于SGD来说,中奖彩票的存在是必要的还是充分的,以使神经网络达到特定的测试精度。我们推测(但没有经验证明)SGD寻找并训练一个初始化良好的子网。按照这种逻辑,超参数化网络更容易训练,因为它们有更多的子网络组合,这些子网络是潜在的赢家。


6 LIMITATIONS AND FUTURE WORK

我们只考虑较小数据集(MNIST, CIFAR10)上以视觉为中心的分类任务。我们没有研究更大的数据集(即Imagenet (Russakovsky et al., 2015)):迭代剪枝是计算密集型的,需要连续训练一个网络15次或15次以上才能进行多次试验。在未来的工作中,我们打算探索更有效的方法来寻找中奖彩票,这将使研究彩票假设在更资源密集的环境中成为可能。

稀疏剪枝是我们找到中奖彩票的唯一方法。尽管我们减少了参数计数,但是最终的架构并没有针对现代库或硬件进行优化。在未来的工作中,我们打算从广泛的当代文献中研究其他的剪枝方法,例如结构化剪枝(它将生成针对当代硬件优化的网络)和非规模剪枝方法(它可以生成更小的中奖彩票或更早发现它们)。

我们发现,中奖彩票具有初始化,使它们能够匹配未经修剪的网络的性能,而这些网络的大小太小,随机初始化的网络无法做到这一点。在未来的工作中,我们打算研究这些初始化的特性,这些特性与修剪后的网络体系结构的归纳偏差相一致,使这些网络特别善于学习。

在更深层次的网络(Resnet-18和VGG-19)上,迭代剪枝无法找到中奖的彩票,除非我们用学习率热身训练网络。在未来的工作中,我们计划探索为什么需要热身,以及对我们的彩票识别方案的其他改进是否可以避免这些超参数修改的需要。

7 RELATED WORK

在实践中,神经网络往往会被显著地过度参数化。知识蒸馏Knowledge distill(Hinton et al., 2015)和pruning (LeCun et al., 1990;Han等人,2015)依赖的事实是,参数可以减少,同时保持准确性。

即使有足够的记忆训练数据的能力,网络也会自然而然地学习更简单的函数(Zhang et al., 2016;Neyshabur等,2014;Arpit等人,2017)。

当代经验(Bengio等,2006;Hinton等,2015;Zhang et al., 2016)和图1表明,超参数化网络更容易训练。我们证明了稠密网络包含稀疏子网络,这些子网络能够从初始化开始学习。其他几个研究方向旨在训练小型或稀疏网络。

Prior to training. 

Squeezenet (Iandola et al., 2016)和MobileNets (Howard et al., 2017)是专门设计的图像识别网络,比标准架构小一个数量级。Denil等(2013)将权重矩阵表示为低秩因子的乘积。

Li等(2018)将优化限制在参数空间的一个小的随机采样子空间(意味着所有参数仍然可以更新);他们在这种限制下成功地训练了网络。

我们证明了一个人甚至不需要更新所有的参数来优化网络,我们通过一个包含剪枝的原则搜索过程找到了中奖彩票。我们对这类方法的贡献是证明稀疏的、可训练的网络存在于更大的网络中。

After training.

Distillation(Ba & Caruana, 2014; Hinton et al., 2015)训练小型网络模仿大型网络的行为;在这种模式下,小型网络更容易训练。最近的修剪工作压缩了大型模型,以便在有限的资源下运行(例如,在移动设备上)。尽管剪枝是我们实验的核心,我们研究了为什么训练需要使剪枝成为可能的参数化网络。

LeCun et al.(1990)和Hassibi &Stork(1993)首次探索了基于二阶导数的剪枝方法。最近,Han等人(2015)发现基於单位权重大小的剪枝大大减小了图像识别网络的大小。

Guo等人(2016)恢复修剪过的连接,因为它们再次变得相关。

Han et al.(2017)和Jin et al.(2016)对修剪后的连接进行恢复,以增加网络容量。其他建议的剪枝启发式包括基于激活的剪枝(Hu et al., 2016)、冗余(Mariet & Sra, 2016; Srinivas & Babu, 2015a), per-layer second derivatives (Dong et al., 2017), 和能源/计算效率(Yang et al., 2017) 。

Cohen等(2016)观察到卷积滤波器对初始化很敏感(Filter Lottery);在整个训练过程中,它们随机地重新初始化不重要的过滤器。

During training.

Bellec等人(2018)使用稀疏网络进行训练,并用新的随机连接替换达到零的权重。Srinivas等(2017)和Louizos等(2018)研究了最小化非零参数数量的门控变量。Narang等(2017)将基于幅度的剪枝整合到训练中。

Gal & Ghahramani(2016)表明dropout近似于高斯过程中的贝叶斯推理。在训练中学习退出概率(Gal et al., 2017; Kingma et al., 2015; Srinivas & Babu, 2016)。

在训练过程中对网络进行修剪和稀疏,因为某些权重的退出概率达到1。相比之下,我们训练网络至少一次来寻找中奖彩票。这些技术也可能找到中奖的彩票,或者通过诱导稀疏性,与我们的方法进行有益的交互。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章