[ICLR19] THE LOTTERY TICKET HYPOTHESIS: FINDING SPARSE, TRAINABLE NEURAL NETWORKS

https://me.csdn.net/tongjilixue 

我覺得指出我譯文一些重要部分出現錯誤,我會理解並更正,這種上來罵人的我是真不懂了,敢問你是看不懂中國字還是看不懂英文?難道我們自願在CSDN上面寫筆記是爲了給你挑語病的?你有不懂的可以在評論區問問題,我看到或者有其他大佬看到可以幫你解決,

再說你這麼傲嬌,還上啥CSDN,自己去Git上提Issue不香嗎?有問題paper在peer review不去問作者不香嗎?跑過來噴我是什麼邏輯?我本來就不是做這篇論文的方向,只是認認真真看了論文聽了別人的presentation自己翻譯一部分方便以後有論文思路Mark,然後把一部分實操的內容機翻一部分有問題?你厲害你可以自己好好寫寫博客,自然不用看我這篇彩筆Notes。

本篇是ICLR2019的兩篇Best Paper之一。另一篇:ORDERED NEURONS: INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORKS


ABSTRACT

神經網絡剪枝技術可以在不影響精度的前提下,將訓練網絡的參數數減少90%以上,降低存儲需求,提高傳播的計算性能。然而,當前的經驗是,剪枝產生的稀疏架構從一開始就很難訓練,這同樣可以提高訓練性能。

我們發現,一種標準的剪枝技術可以自然地揭示子網絡subnetworks,這些子網絡的初始化使它們能夠有效地進行訓練。基於這些結果,我們明確了彩票假設lottery ticket hypothesis:密集的、隨機初始化的、前饋網絡包含子網絡(lottery ticket),這些子網絡經過隔離訓練,在相同次數的迭代中達到與原始網絡相當的測試精度。我們找到的中獎彩票的原始初始化彩票:它們的連接具有初始權重,這使得訓練特別有效。

我們提出了一個算法,以確定中獎彩票和一系列的實驗,支持彩票假說和這些偶然初始化的重要性。我們始終發現,MNIST和CIFAR10的中獎彩票小於幾個全連接和卷積前饋架構的10-20%。在此規模以上,我們發現中獎彩票(lottery ticket)比原來的網絡學習速度更快,達到更高的測試精度。


1 INTRODUCTION

從神經網絡中消除不必要權重的技術(剪枝)) (LeCun et al., 1990; Hassibi & Stork, 1993; Han et al., 2015; Li et al., 2016)可以在不影響精度的情況下將參數減少90%以上。這樣做會減少規模(Han et al., 2015; Hinton et al., 2015)或資源消耗(Yang et al., 2017; Molchanov et al., 2016; Luo et al., 2017)訓練後的網絡,使傳播更有效。

然而,如果一個網絡的規模可以縮小,那麼我們爲什麼不訓練這個更小的體系結構來提高訓練的效率呢?現在的經驗是,通過修剪發現的架構從一開始就很難訓練,達到的精度也低於原始網絡

考慮一個例子。在圖1中,我們隨機抽取一個用於MNIST的全連接網絡(full connected network)和一個用於CIFAR10的卷積網絡的子網絡,並對其進行訓練。LeCun et al.(1990)和Han et al.(2015)採用隨機抽樣的方法對非結構化剪枝的效果進行了建模。在不同的稀疏度級別上,虛線跟蹤最小驗證損失的迭代和迭代時的測試精度。網絡越稀疏,學習越慢,最終的測試精度越低

在本文中,我們證明了始終存在較小的子網絡,它們從一開始就進行訓練,學習速度至少與較大的子網絡一樣快,同時達到了類似的測試精度。圖1中的實線顯示了我們找到的網絡。基於這些結果,我們提出了彩票(lottery ticket)假設。

The Lottery Ticket Hypothesis. A randomly-initialized, dense neural network contains a subnetwork that is initialized such that—when trained in isolation—it can match the test accuracy of the original network after training for at most the same number of iterations. 

一個隨機初始化的密集神經網絡包含一個初始化的子網,當在隔離狀態下訓練時,經過最多相同迭代次數的訓練,它可以匹配原始網絡的測試精度。

更正式地說,考慮一個密集的前饋神經網絡f(x ; \theta)與初始參數\theta=\theta_{0} \sim \mathcal{D}_{\theta}。當對訓練集進行隨機梯度下降(SGD)優化時,f在迭代次數j處達到最小驗證損失l,測試精度爲a。此外,考慮使用mask m \in\{0,1\}^{|\theta|}在初始化是m \odot \theta_{0}時訓練f(x ; m \odot \theta)。在相同的訓練集(m固定)上使用SGD進行優化時,f在迭代j^{\prime}處達到最小驗證損失l^{\prime},測試精度爲a^{\prime}。彩票(lottery ticket)假設預測了\exists m時候j^{\prime} \leq j, a^{\prime} \geq a\|m\|_{0} \ll|\theta|

我們發現一種標準的剪枝技術可以自動地從全連通和卷積前饋網絡中分離出這些可訓練的子網絡。我們指定這些可訓練的子網絡f\left(x ; m \odot \theta_{0}\right),中獎彩票(lottery ticket),因爲我們找到的那些中獎彩票(lottery ticket)是通過組合權重和能夠學習的連接來初始化彩票的。當它們的參數被隨機重新初始化時\left(f\left(x ; m \odot \theta_{0}^{\prime}\right),\theta_{0}^{\prime} \sim \mathcal{D}_{\theta}\right)。我們的中獎彩票(lottery ticket)不再與原始網絡的性能匹配,這表明這些較小的網絡不能有效地訓練,除非它們被適當地初始化

Identifying winning tickets. 我們通過訓練一個網絡並修剪它的最小量級權重來確定一張中獎彩票(lottery ticket),其餘未修剪的連接構成了中獎彩票(lottery ticket)的體系結構。對於我們的工作來說,每個未修剪的連接s值在訓練之前都會從原始網絡重置爲初始化值。這構成了我們的中心實驗:

  1. 隨機初始化一個神經網絡f(x ; \theta_0),參數初始化\theta_{0} \sim \mathcal{D}_{\theta}
  2. 訓練網絡進行j次迭代,得到參數\theta_{j}
  3. \theta_{j} 修剪p %的參數,創建一個mask m
  4. 重置其餘的參數在\theta_{0}他們的價值觀,創造了這張中獎彩票f\left(x ; m \odot \theta_{0}\right)

如前所述,這種剪枝方法是一次性的:對網絡進行一次訓練,剪枝p%的權重,重置剩餘的權重。然而,在本文中,我們關注的是迭代剪枝,它在n輪內重複訓練、修剪和重置網絡;每一輪都刪除前一輪存活下來的p^{\frac{1}{n}} \%的權重。我們的結果表明,迭代剪枝可以在較小的規模下找到匹配原始網絡精度的中獎彩票。

Results 我們通過幾個優化策略(SGD、momentum和Adam),在MNIST的全連接架構和CIFAR10的卷積架構中,使用諸如dropout、weight衰減、batch norm和ResNet等技術來識別中獎彩票。我們使用了一種非結構化的剪枝技術,所以這些中獎彩票是稀疏的。在更深層次的網絡中,我們基於剪枝的策略對學習速度非常敏感:它需要在較高的學習速度下進行熱身,以找到中獎彩票。我們找到的中獎彩票是原來的10-20%(或更少)網絡(小尺寸)。在此範圍內,它們在最多相同的迭代次數(相應的訓練時間)中滿足或超過原始網絡的測試精度(相應的精度)。當隨機重新初始化中獎彩票時,中獎彩票的性能要差得多,這意味着結構本身不能解釋中獎彩票的成功

The Lottery Ticket Conjecture 回到我們的動機問題,我們將我們的假設擴展爲一個未經驗證的猜想,即SGD尋找並訓練一個初始化良好的權重子集。密集的、隨機初始化的網絡比稀疏的網絡更容易訓練,稀疏的網絡是由剪枝產生的,因爲有更多的可能的子網絡,訓練可以從中收回一張中獎彩票。

Contributions

  • 我們證明了剪枝揭示了可訓練的子網絡,這些子網絡達到了與原始網絡相當的測試精度,而原始網絡在相當數量的迭代中派生了這些子網絡。
  • 我們證明了剪枝發現中獎彩票比原來的網絡學習更快,同時達到更高的測試精度和更好的泛化。
  • 我們提出彩票假說作爲一個新的視角,對神經網絡的組成來解釋這些發現。

Implications 本文對彩票假說進行了實證研究。既然我們已經證明了中獎彩票的存在,我們希望利用這一知識:

  • 提高訓練成績。由於中獎彩票可以從一開始就單獨進行訓練,我們希望能夠設計出能夠搜索中獎彩票並儘早進行修剪的訓練方案。
  • 設計更好的網絡。中獎彩票揭示了稀疏體系結構和特別善於學習的初始化的組合。我們可以從中獎中獲得靈感,設計具有相同屬性的新體系結構和初始化方案,這有助於學習。我們甚至可以把爲一項任務發現的中獎彩票轉讓給許多其他任務。
  • 提高我們對神經網絡的理論理解。我們可以研究爲什麼隨機初始化的前饋網絡似乎包含中獎彩票和優化理論研究(Du et al., 2019)和泛化的潛在含義(Zhou et al., 2018; Arora et al., 2018)。

2 WINNING TICKETS IN FULLY-CONNECTED NETWORKS

在本節中,我們將彩票假設應用於訓練了MNIST的全連接網絡。我們使用Lenet-300-100體系結構(LeCun et al., 1998),如圖2所示。我們遵循第1節的大綱:在隨機初始化和訓練網絡之後,我們修剪網絡並將剩餘的連接重置爲初始化。我們使用一個簡單的分層剪枝啓發式:刪除每一層中大小最低的權重的百分比(如Han等人(2015))。連接到輸出的修剪速度是網絡其餘部分的一半。我們在附錄G中探討了其他超參數,包括學習率、優化策略(SGD、momentum)、初始化方案和網絡大小。

Notation P_{m}=\frac{\|m\|_{0}}{|\theta|}是mask m的稀疏部分,例如,當75%的權重被修剪時,Pm = 25%。

Iterative pruning 我們發現中獎的彩票比原來的網絡學習得更快。圖3繪製了訓練不同程度反覆修剪的中獎彩票時的平均測試準確度。錯誤欄是五次運行的最小值和最大值。在第一輪剪枝中,網絡學習速度更快,且剪枝越多,測試精度越高(圖3中的左圖)。Pm = 51.3%,比原網絡更快達到更高的測試精度,但比Pm = 21.1%時慢。

當Pm < 21.1%時,學習變慢(圖中)。

當Pm = 3.6%時,中獎票迴歸到原始網絡的性能。類似的模式在本文中重複出現。

圖4a總結了每次迭代修剪20%時所有修剪級別的這種行爲(藍色)。左邊是每個網絡達到最小驗證損失的迭代(即,當早期停止準則將停止訓練時)與修剪後剩餘重量百分比的關係;中間是迭代時的測試精度。我們使用滿足早期停止條件的迭代作爲網絡學習速度的代理。

當Pm從100%下降到21%時,中獎的彩票學得更快,在這一點上提前停止比原來的網絡早38%。進一步的修剪會導致學習變慢,

當Pm = 3.6%時恢復到原始網絡的early stopping性能。修剪後測試精度提高,Pm = 13.5%時提高0.3個百分點以上;

當Pm = 3.6%時,準確率下降,恢復到原始網絡的水平。

在early stopping時,訓練精度(圖4a右)隨着修剪以類似於測試精度的模式增加,這似乎意味着中獎彩票優化得更有效,但不能更好地推廣。然而,在迭代50,000(圖4b)時,儘管幾乎所有網絡的訓練精度都達到了100%(附錄D,圖12),迭代修剪的中獎彩票仍然可以看到測試精度提高了0.35個百分點。這意味着對於中獎彩票,訓練精度和測試精度之間的差距更小,這說明改進了泛化效果(generalization)。

Random reinitialization 爲了度量中獎彩票初始化的重要性,我們保留了中獎彩票的結構(即mask m),但隨機樣本的一個新初始化\theta_{0}^{\prime} \sim \mathcal{D}_{\theta }。我們隨機地重新初始化每張中獎彩票三次,在圖4中每點總共15次。我們發現初始化對於中獎彩票的有效性至關重要。

圖3中的右圖顯示了迭代剪枝的實驗。除了原始網絡和中獎彩票在Pm = 51%和21%是隨機重新初始化實驗。當中獎彩票被剪枝時,它們學習得更快,而當隨機重新初始化時,它們學習得越來越慢。

本實驗更廣泛的結果是圖4a中的橙色線。與中獎彩票不同的是,重新初始化的網絡學習速度比原來的網絡越來越慢,並且在進行少量修剪之後就會失去測試精度。

當Pm = 21.1%時,重新初始化的迭代中獎彩票的平均測試精度從原始精度下降,而中獎彩票的測試精度爲2.9%。

當Pm = 21%時,中獎彩票比重新初始化時達到最小驗證損失2.51倍,且更精確0.5個百分點。

所有網絡達到100%的培訓準確率爲Pm 5%;因此,圖4b表明中獎彩票的泛化效果明顯好於隨機重新初始化時的泛化效果。

本實驗支持了彩票初始化的假設,強調初始化:原始初始化經受住了修剪並從中受益,而隨機重新初始化的性能立即受到影響並穩步下降。

One-shot pruning 雖然迭代剪枝可以提取出更小的中獎彩票,但是重複的訓練意味着尋找這些彩票的成本很高。一次剪枝就可以在沒有重複訓練的情況下識別出中獎彩票。圖4c爲一次修剪(綠色)和隨機重初始化(紅色)的結果;一次性剪枝確實能找到中獎的彩票。

67.5 \% \geq P_{m} \geq 17.6 \%時,平均中獎票的驗證精度比原網絡提前達到最低。

95.0 \% \geq P_{m} \geq 5.17 \%時,測試精度高於原網絡。

然而,在較小的網絡規模下,迭代修剪的中獎彩票學習速度更快,並達到更高的測試精度。圖4c中的綠線和紅線複製在圖4a的對數軸上,使得這個性能差距更加明顯。由於我們的目標是確定最小可能的中獎彩票,所以我們在本文的其餘部分將重點放在迭代剪枝上。


3 WINNING TICKETS IN CONVOLUTIONAL NETWORKS

這裏,我們將彩票假設應用到CIFAR10上的卷積網絡中,增加了學習問題的複雜性和網絡的規模。我們考慮圖2中的conv2、conv4和conv6架構,它們是VGG (Simonyan &Zisserman, 2014)的家庭。網絡有兩個、四個或六個卷積層,然後是兩個完全連接的層;每兩個卷積層之後就會出現最大池。這些網絡覆蓋了從幾乎完全連接到傳統卷積網絡的範圍,卷積層參數在conv2中的比例不到1%,而在conv6中的比例接近三分之二。

Finding winning tickets 圖5(頂部)中的實線顯示了按圖2中的每層剪枝率對conv2(藍色)、conv4(橙色)和conv6(綠色)進行的迭代彩票實驗。第2節中Lenet的模式重複出現:當網絡被剪枝時,它學習得更快,與原始網絡相比,測試精度提高了。在這種情況下,結果更加明顯。

勝出彩票對於conv2 (Pm = 8.8%)、conv4 (Pm = 9.2%)和conv6 (Pm = 15.1%)的驗證損失最小,最多快3.5倍。對於conv2 (Pm = 4.6%)、對於conv4 (Pm = 11.1%)和對於conv6 (Pm = 26.4%),測試準確度的最佳提高幅度分別爲3.4個百分點、3.5個百分點和3.3個百分點。當Pm >爲2%時,這三個網絡的測試精度都保持在原來的平均水平之上。

在第2節中,early stopping迭代的訓練精度隨着測試精度的提高而提高。然而,在conv2的迭代爲20,000,conv4的迭代爲25,000,conv6的迭代爲30,000(與原始網絡的最終訓練迭代對應的迭代),

當Pm≥2%時,所有網絡的訓練精度均達到100%(附錄D,圖13)和中獎彩票仍保持較高的測試精度右下角(圖5)。這意味着對於中獎彩票來說,測試和訓練的準確性之間的差距更小,這表明它們具有更好的泛化性。

Random reinitialization 我們重複第2節中的隨機重新初始化實驗,如圖5中的虛線所示。這些網絡在不斷修剪之後,學習的時間也越來越長。就像MNIST上的Lenet(第2節)一樣,對於隨機重新初始化實驗,測試精度下降得更快。然而,與Lenet不同的是,對於conv2和conv4,早期停止時間的測試精度最初保持穩定,甚至有所提高,這表明在中等水平的剪枝中,僅剪枝中獎彩票的結構可能會導致更高的精度

Dropout dropout(Srivastava et al.)通過隨機禁用部分單元(即,隨機抽取一個子網絡)。Baldi,Sadowski(2013)將dropout描述爲同時訓練所有子網絡的集合。由於彩票假說表明,這些子網絡中有一個包含中獎彩票,因此很自然地會問,dropout和我們尋找中獎彩票的策略是否相互作用。

圖6顯示了訓練的conv2、conv4和conv6的結果,dropout爲0.5。虛線是沒有dropout的網絡性能(圖5中的實線)。4 .我們繼續尋找中獎的門票,當訓練與dropout。

Dropout增加了初始測試精度(對於conv2、conv4和conv6,平均分別爲2.1、3.0和2.4個百分點),迭代剪枝進一步提高了初始測試精度(平均分別增加了2.3、4.6和4.7個百分點)。與以前一樣,迭代剪枝使學習變得更快,但是在conv2的情況下,學習就不那麼顯著了。

這些改進表明,我們的迭代剪枝策略以互補的方式與dropout交互。Srivastava等(2014)觀察到,dropout在最終網絡中誘導稀疏激活;有可能dropout導致的稀疏性啓動了一個需要修剪的網絡。如果是,目標權重的退出技術(Wan et al., 2013)或學習每個權重的退出概率s (Molchanov et al., 2017; Louizos et al., 2018)可能會使中獎彩票更容易找到。


4 VGG AND RESNET FOR CIFAR10

在這裏,我們研究了網絡彩票假設,喚起了在實踐中使用的體系結構和技術。具體來說,我們考慮的是vgg風格的深卷積網絡(CIFAR10 Simonyan &上的VGG-19)Zisserman(2014))和殘餘網絡(Resnet-18 on CIFAR10 He et al.(2016))。

這些網絡使用批處理範數、重量衰減、降低學習率計劃和增強訓練數據進行訓練。我們繼續爲所有這些結構尋找中獎的門票;然而,我們的方法迭代剪枝,是敏感的特定的學習率使用。在這些實驗中,我們沒有測量early stopping的時間(對於這些較大的網絡,提前停止的時間與學習速率表糾纏在一起),而是繪製了訓練過程中幾個時刻的準確性,以說明準確性提高的相對速度。

Global pruning. 在Lenet和Conv-2/4/6上,我們以相同的速度分別修剪每一層。對於Resnet-18和VGG-19,我們稍微修改了這個策略:我們在全局內修剪這些更深層次的網絡,刪除所有卷積層上的最低量級權重。

在附錄I.1中,我們發現全局剪枝確定了Resnet-18和VGG-19的較小的中獎彩票。我們對這種行爲的推測解釋如下:對於這些更深層次的網絡,某些層的參數要比其他層多得多。

例如,VGG-19的前兩個卷積層有1728和36864個參數,後一個卷積層有235萬個參數。當所有層都以相同的速度修剪時,這些更小的層就成爲瓶頸,阻止我們識別出最小的可能中獎彩票。全局修剪使避免這個陷阱成爲可能。

VGG-19. 我們研究了Liu等人(2019)對CIFAR10的改型VGG-19;我們使用相同的訓練機制和超參數:160 epoch(112,480迭代)和SGD動量(0.9),並在80和120個紀元時將學習率降低10倍。這個網絡有2000萬個參數。圖7顯示了VGG-19在兩個初始學習率爲0.1 (Liu et al.(2019))和0.01時的迭代剪枝和隨機重新初始化結果。

在較高的學習速度下,迭代剪枝並不會找到中獎的彩票,並且其性能並不比隨機重新初始化剪枝後的網絡好。然而,在較低的學習速率下,通常的模式會重新出現,子網絡的準確率保持在原始精度的1個百分點以內,而Pm爲3.5%。(它們不是中獎彩票,因爲它們與最初的準確性不符)

當隨機重新初始化子網時,由於採用與本文其他實驗相同的方法對其進行剪枝,子網的精度會降低。雖然這些子網絡在早期的訓練中比未修剪的網絡學習得更快(圖7左),但是由於初始學習率較低,這種準確性優勢在稍後的訓練中逐漸減弱。然而,這些子網絡仍然比重新初始化時學習得更快。

爲了彌補低學習率的彩票行爲與高學習率的準確性優勢之間的差距,我們研究了線性學習率在k次迭代中從0到初始學習率預熱的效果。

在學習速率0.1下,使用(k = 10000,綠線)訓練VGG-19,將未修剪網絡的測試精度提高約1個百分點。這使找到中獎彩票成爲可能,當下午1.5%超過這個初始精度。

Resnet-18. Resnet-18 (He et al., 2016)是一個爲CIFAR10設計的具有剩餘連接residual connections的20層卷積網絡。它有271,000個參數。我們使用動量爲0.9的SGD對網絡進行30000次迭代訓練,在20,000和25,000次迭代時,學習率降低了10倍。圖8顯示了以0.1 (He et al.(2016))和0.01的學習速率迭代剪枝和隨機重新初始化的結果。

這些結果在很大程度上反映了VGG的結果:迭代剪枝發現中獎彩票在較低的學習率,但不是較高的學習率。在較低的學習率下(41.7% Pm 21.9%),最佳中獎彩票的準確率爲89.5%,在較高的學習率下(90.5%),低於原網絡的準確率。在較低的學習速度下,中獎彩票最初的學習速度會再次加快(圖8的左圖),但在訓練後期較高的學習速度下(右圖),中獎彩票的學習速度會落後於未修剪的網絡。

在較高的學習速度下,熱身訓練的中獎彩票與未修剪網絡的準確率差距縮小,在Pm = 27.1%時達到90.5%的測試準確率,學習速度爲0.03(熱身,k = 20000)。對於這些超參數,我們仍然可以在Pm 11.8%時找到中獎彩票。然而,即使進行了熱身,我們也無法找到超參數,以0.1的原始學習率來識別中獎彩票。


5 DISCUSSION

現有的神經網絡剪枝研究(如Han et al.(2015))表明,神經網絡學習的函數往往可以用更少的參數表示。修剪通常通過訓練原始網絡、刪除連接和進一步微調來進行。實際上,初始訓練初始化修剪後的網絡的權重,以便在微調期間它可以獨立地學習。我們試圖確定類似的稀疏網絡是否可以從一開始就學習。我們發現,本文所研究的體系結構可靠地包含了這樣的可訓練子網絡,彩票假設提出了這一性質在一般情況下是適用的。我們對中獎彩票的存在和性質的實證研究引發了一系列後續問題。

The importance of winning ticket initialization. 當隨機重新初始化中獎彩票時,中獎彩票的學習速度較慢,測試精度較低,這表明初始化對中獎彩票的成功非常重要。對這種行爲的一種可能解釋是,這些初始權重接近於它們的最終權重訓練後認爲,在最極端的情況下,他們已經培訓。然而,附錄F中的實驗表明,中獎彩票權重比其他權重移動得更遠。這表明初始化的好處與優化算法、數據集和模型有關。例如,中獎彩票初始化可能落在損失景觀的一個區域,該區域特別適合使用所選的優化算法進行優化。

Liu等人(2019)發現修剪後的網絡在隨機重新初始化時確實是可訓練的,這似乎與傳統的智慧和我們的隨機重新初始化實驗相矛盾。例如,在VGG-19上(我們共享相同的設置),他們發現修剪了高達80%的網絡和隨機重新初始化的網絡匹配原始網絡的準確性。我們在圖7中所做的實驗證實了這些發現在這種稀疏性水平下(Liu等人沒有在此水平下提供數據)。

然而,在進一步剪枝之後,初始化很重要:當VGG-19剪枝最多98.5%時,我們發現中獎彩票;當重新初始化時,這些票據的精度會降低很多。我們假設,在一定程度上,稀疏度高的超參數化網絡可以被成功地修剪、初始化和再訓練;然而,在此之後,經過嚴格修剪的、不太嚴重的超順化網絡只能通過偶然的初始化來保持準確性。

The importance of winning ticket structure. 產生中獎彩票的初始化安排在特定的稀疏體系結構中。由於我們通過大量使用訓練數據來發現中獎彩票,我們假設中獎彩票的結構編碼了一種針對當前學習任務的歸納偏見。科恩,Shashua(2016)表明,深度網絡結構中嵌入的歸納偏差決定了它能夠比淺層網絡更有效地分離參數的數據類型;雖然科恩,Shashua(2016)專注於卷積網絡的池幾何,類似的效果可能在中獎彩票的結構中發揮作用,使他們能夠學習,即使是在嚴重修剪。

Implications for neural network optimization. 中獎彩票可以達到與原始的、未經修剪的網絡相同的精度,但參數明顯更少。這一發現與最近關於神經網絡訓練中參數化作用的研究有關。例如,Du等人(2019)證明了用SGD訓練的充分參數化雙層relu網絡(具有固定大小的第二層)收斂到全局最優。因此,一個關鍵的問題是,對於SGD來說,中獎彩票的存在是必要的還是充分的,以使神經網絡達到特定的測試精度。我們推測(但沒有經驗證明)SGD尋找並訓練一個初始化良好的子網。按照這種邏輯,超參數化網絡更容易訓練,因爲它們有更多的子網絡組合,這些子網絡是潛在的贏家。


6 LIMITATIONS AND FUTURE WORK

我們只考慮較小數據集(MNIST, CIFAR10)上以視覺爲中心的分類任務。我們沒有研究更大的數據集(即Imagenet (Russakovsky et al., 2015)):迭代剪枝是計算密集型的,需要連續訓練一個網絡15次或15次以上才能進行多次試驗。在未來的工作中,我們打算探索更有效的方法來尋找中獎彩票,這將使研究彩票假設在更資源密集的環境中成爲可能。

稀疏剪枝是我們找到中獎彩票的唯一方法。儘管我們減少了參數計數,但是最終的架構並沒有針對現代庫或硬件進行優化。在未來的工作中,我們打算從廣泛的當代文獻中研究其他的剪枝方法,例如結構化剪枝(它將生成針對當代硬件優化的網絡)和非規模剪枝方法(它可以生成更小的中獎彩票或更早發現它們)。

我們發現,中獎彩票具有初始化,使它們能夠匹配未經修剪的網絡的性能,而這些網絡的大小太小,隨機初始化的網絡無法做到這一點。在未來的工作中,我們打算研究這些初始化的特性,這些特性與修剪後的網絡體系結構的歸納偏差相一致,使這些網絡特別善於學習。

在更深層次的網絡(Resnet-18和VGG-19)上,迭代剪枝無法找到中獎的彩票,除非我們用學習率熱身訓練網絡。在未來的工作中,我們計劃探索爲什麼需要熱身,以及對我們的彩票識別方案的其他改進是否可以避免這些超參數修改的需要。

7 RELATED WORK

在實踐中,神經網絡往往會被顯著地過度參數化。知識蒸餾Knowledge distill(Hinton et al., 2015)和pruning (LeCun et al., 1990;Han等人,2015)依賴的事實是,參數可以減少,同時保持準確性。

即使有足夠的記憶訓練數據的能力,網絡也會自然而然地學習更簡單的函數(Zhang et al., 2016;Neyshabur等,2014;Arpit等人,2017)。

當代經驗(Bengio等,2006;Hinton等,2015;Zhang et al., 2016)和圖1表明,超參數化網絡更容易訓練。我們證明了稠密網絡包含稀疏子網絡,這些子網絡能夠從初始化開始學習。其他幾個研究方向旨在訓練小型或稀疏網絡。

Prior to training. 

Squeezenet (Iandola et al., 2016)和MobileNets (Howard et al., 2017)是專門設計的圖像識別網絡,比標準架構小一個數量級。Denil等(2013)將權重矩陣表示爲低秩因子的乘積。

Li等(2018)將優化限制在參數空間的一個小的隨機採樣子空間(意味着所有參數仍然可以更新);他們在這種限制下成功地訓練了網絡。

我們證明了一個人甚至不需要更新所有的參數來優化網絡,我們通過一個包含剪枝的原則搜索過程找到了中獎彩票。我們對這類方法的貢獻是證明稀疏的、可訓練的網絡存在於更大的網絡中。

After training.

Distillation(Ba & Caruana, 2014; Hinton et al., 2015)訓練小型網絡模仿大型網絡的行爲;在這種模式下,小型網絡更容易訓練。最近的修剪工作壓縮了大型模型,以便在有限的資源下運行(例如,在移動設備上)。儘管剪枝是我們實驗的核心,我們研究了爲什麼訓練需要使剪枝成爲可能的參數化網絡。

LeCun et al.(1990)和Hassibi &Stork(1993)首次探索了基於二階導數的剪枝方法。最近,Han等人(2015)發現基於單位權重大小的剪枝大大減小了圖像識別網絡的大小。

Guo等人(2016)恢復修剪過的連接,因爲它們再次變得相關。

Han et al.(2017)和Jin et al.(2016)對修剪後的連接進行恢復,以增加網絡容量。其他建議的剪枝啓發式包括基於激活的剪枝(Hu et al., 2016)、冗餘(Mariet & Sra, 2016; Srinivas & Babu, 2015a), per-layer second derivatives (Dong et al., 2017), 和能源/計算效率(Yang et al., 2017) 。

Cohen等(2016)觀察到卷積濾波器對初始化很敏感(Filter Lottery);在整個訓練過程中,它們隨機地重新初始化不重要的過濾器。

During training.

Bellec等人(2018)使用稀疏網絡進行訓練,並用新的隨機連接替換達到零的權重。Srinivas等(2017)和Louizos等(2018)研究了最小化非零參數數量的門控變量。Narang等(2017)將基於幅度的剪枝整合到訓練中。

Gal & Ghahramani(2016)表明dropout近似於高斯過程中的貝葉斯推理。在訓練中學習退出概率(Gal et al., 2017; Kingma et al., 2015; Srinivas & Babu, 2016)。

在訓練過程中對網絡進行修剪和稀疏,因爲某些權重的退出概率達到1。相比之下,我們訓練網絡至少一次來尋找中獎彩票。這些技術也可能找到中獎的彩票,或者通過誘導稀疏性,與我們的方法進行有益的交互。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章