彩票理論

神經網絡壓縮是人工智能落地過程中重要的一個環節。關於網絡壓縮的理論之前就已經有很多,比如,模型蒸餾,剪枝,量化,低秩矩陣近似等。彩票理論算是個令人耳目一新的觀點,值得看看。

摘要:

神經網絡修剪技術可以將訓練有素的網絡的參數數量減少90%以上,減少存儲需求並提高推理的計算性能,而不會影響準確性。 但是,當代的經驗是,修剪產生的稀疏架構從一開始就很難訓練,這同樣會提高訓練性能。發現,標準的修剪技術自然會發現子網,這些子網的初始化使其能夠有效地進行訓練。 根據這些結果,提出彩票假設:密集的,隨機初始化的前饋網絡包含子網(贏得彩票),這些子網經過單獨訓練後,在相似的迭代次數中可以達到與原始網絡相當的測試精度。 所發現的中獎彩票已經獲得了初始化彩票:他們的連接具有使訓練特別有效的初始權重。本文提出了一種識別中獎彩票的算法,以及一系列支持彩票假設和這些偶然初始化的重要性的實驗。 始終發現中獎彩票的大小不到MNIST和CIFAR10的幾種全連接和卷積前饋體系結構的大小的10-20%。 超過此大小,並發現的中獎彩票比原始網絡學習得更快,並且達到更高的測試準確性。

1. 簡介

如果一個網絡的規模可以縮小,爲什麼我們不訓練這個更小的架構,而是爲了提高訓練的效率呢?當前的經驗是,通過修剪發現的架構從一開始就很難進行培訓,其準確性低於原始的網絡。

考慮如下例子,

我們從用於MNIST的全連接網絡和用於CIFAR10的卷積網絡中隨機採樣和訓練子網。 隨機抽樣模擬了LeCun等人使用的非結構化修剪的效果。在稀疏性的各個級別上,虛線跟蹤了最小驗證損失的迭代以及該迭代時的測試準確性。結果表明,網絡稀疏,學習速度越慢,最終的測試準確性越低。

然而,作者表明,始終存在着較小的子網,它們從一開始就進行訓練,並且學習速度至少與較大的子網一樣快,同時達到了相似的測試精度。 圖1中的實線顯示了我們找到的網絡。 基於這些結果,我們陳述彩票假設

隨機初始化的密集神經網絡包含一個已初始化的子網絡,以便在單獨訓練子網絡時,在經過最多相同數量的迭代訓練後,可以匹配原始網絡的測試精度。

以下是公式說明,

 

識別中獎彩票

我們通過訓練網絡並修剪其最小幅度權重來確定中獎彩票。 其餘未修剪的連接構成了中獎彩票的體系結構。 對於我們的工作而言,獨特的是,每個未修剪的連接的值都將在經過培訓之前從原始網絡重置爲其初始化。以下是重要步驟,

如上所述,這種修剪方法是一次性的:對網絡進行一次訓練,修剪p%%的權重,並重置剩餘的權重。 但是,在本文中,我們將重點放在迭代修剪上,它反覆訓練,修剪和重置網絡周圍的環境。 每一輪的重量都應減去前一輪的p^{^{1/n}}%重量。 我們的結果表明,與一次修剪相比,迭代修剪可以找到與原始網絡的精度相匹配的中獎票證。

結果

我們通過多種優化策略(SGD,動量和Adam)在MNIST的全連接體系結構和CIFAR10的卷積體系結構中識別中獎票證,這些技術具有dropout,weight decay,batch normal和residual connections等技術。 我們使用非結構化剪枝技術,因此這些中獎票證是稀疏的。 在更深入的網絡結構中,我們基於剪枝的尋找中獎彩票的策略對學習率敏感:需要熱身才能找到中獎彩票。我們找到的中獎彩票是原始網絡的10%~20%。減小到此大小後,它們最多可以在相同的迭代次數(相應的訓練時間)內達到或超過原始網絡的測試精度(相稱的準確性)。隨機重新初始化後,中獎彩票的表現將更差,這意味着僅憑結構無法解釋中獎彩票的成功。

彩票猜想

回到我們的激勵問題,我們將假設擴展到一個未經檢驗的猜想,即SGD會尋找並訓練一部分初始化良好的權重。 密集的,隨機初始化的網絡比修剪導致的稀疏網絡更容易訓練,因爲存在更多可能的子網絡,訓練可以從中回收中獎票。

本文貢獻

  • 我們證明,剪枝發現了可訓練的子網,這些子網在相同的迭代次數中即可達到與原始網絡相當的測試精度。
  • 我們表明,剪枝發現的獲勝票證比原始網絡學習得更快,同時達到了更高的測試精度和泛化能力更好。
  • 我們提出彩票假設作爲神經網絡組成的新觀點來解釋這些發現

在本文中,我們對彩票假設進行了實證研究。 現在我們已經演示了中獎彩票的存在,我們希望利用這一知識來,

  • 提升訓練性能。由於可以從一開始就對中獎彩票進行單獨培訓,因此希望我們可以設計出訓練方案,以儘早搜索中獎彩票和剪枝。
  • 設計更好的網絡。中獎彩票揭示了稀疏架構和初始化的組合 特別善於學習。 我們可以從中獎券中汲取靈感,設計出具有與學習相同屬性的新架構和初始化方案。 我們甚至可以將爲一項任務發現的中獎彩票轉移給其他許多人。
  • 提高了我們對神經網絡的理論理解。我們可以研究爲什麼隨機初始化的前饋網絡似乎包含中獎彩票以及對優化理論研究的潛在影響

 

2.全連接網絡中的中獎彩票

在本節中,我們評估了應用於MNIST訓練的全連接網絡的彩票假設。 我們使用Lenet-300-100架構,如圖2所示。我們遵循第1節的概述:在隨機初始化和訓練網絡之後,我們修剪網絡並將剩餘的連接重置爲其原始連接的初始化值。我們使用簡單的逐層修剪啓發式方法:刪除每一層中具有最低幅度的權重的百分比。與輸出的連接修剪速度爲網絡其餘部分速率的一半。

 

迭代剪枝

圖3 刻畫了迭代修剪再不同程度的中獎彩票時的平均測試準確性。在第一輪修剪中,網絡修剪得越多,網絡學習速度就會越快,測試精度也越高(圖3中的左圖)。 包含原始網絡權重的51.3%(即Pm = 51.3%)的中獎票證比原始網絡更快地達到更高的測試準確性,但比Pm = 21.1%時要慢。 當Pm <21.1%時,學習變慢(中圖)。 當Pm = 3.6%時,中獎彩票將還原爲原始網絡的性能。 在整個本文中都重複了類似的模式。

 

隨機重新初始化

爲了衡量中獎彩票初始化的重要性,我們保留了中獎彩票的結構(即maskm),但隨機採樣了一個新的初始化θ′0〜Dθ。我們將每張中獎彩票隨機地重新初始化三次,使得每點總數爲15 4.我們認爲初始化對於中獎彩票的有效性至關重要。 圖3的右圖顯示了此迭代修剪實驗。 除了原始網絡和Pm = 51%和21%的中獎彩票之外,還有隨機重新初始化實驗。 修剪後中獎彩票的學習速度更快,而隨機重新初始化時,它們的學習速度則逐漸變慢。

該實驗的更廣泛的結果是圖4a中的橙色線。 與中獎票券不同,重新初始化的網絡學習速度比原始網絡慢,並且在修剪後會失去測試準確性。 當Pm = 21.1%時,重新初始化的迭代中獎彩票的平均測試準確性從原始準確性下降,而中獎彩票的2.9%。 當Pm = 21%時,中獎彩票的最小驗證損失比重新初始化時快2.51倍,並且準確度降低了半個百分點。 Pm≥5%時,所有網絡的訓練精度均達到100%;此實驗支持彩票假設強調初始化:原始的初始化可從修剪中受益並受益,而隨機重新初始化的性能會立即受到影響並穩定下降

一次剪枝

儘管迭代修剪可提取較小的中獎彩票,但重複訓練意味着找到它們的成本很高。 一鍵式修剪使無需重新培訓即可確定中獎彩票。 圖4c顯示了一次修剪(綠色)和隨機重新初始化(紅色)的結果; 一次性修剪確實可以找到中獎彩票。 當67.5%≥Pm≥17.6%時,平均中獎彩票的驗證準確性要比原始網絡更早。當95.0%≥Pm≥5.17%時,測試準確性要高於原始網絡。 但是,以迭代方式修剪的中獎彩票學習速度更快,並且在較小的網絡規模下可以達到更高的測試準確性。 在圖4a的對數軸上覆制了圖4c中的綠線和紅線,使該性能差距清晰可見。 由於我們的目標是確定最小的中獎彩票,因此在本文的其餘部分中,我們將重點放在迭代修剪上。

 

3.卷積神經網絡上的中獎彩票

在這裏,我們將彩票假設應用於CIFAR10上的卷積網絡,這既增加了學習問題的複雜性,又增加了網絡的規模。 我們考慮圖2中的Conv-2,Conv-4和Conv-6架構,它們是VGG系列的按比例縮小的變體。 網絡有兩個,四個或六個卷積層,後面是兩個完全連接的層; 最大卷積發生在每兩個卷積層之後。 這些網絡涵蓋了從幾乎完全連接到傳統的卷積網絡的範圍,在Conv-2中卷積層中的參數不到1%,在Conv-6中近三分之二。

尋找中獎彩票

圖5(頂部)中的實線顯示了Conv-2(藍色),Conv-4(橙色)和Conv-6(綠色)在圖2的逐層修剪速率下的迭代彩票實驗。 Lenet在第2節中重複:修剪網絡後,與原始網絡相比,它學習速度更快,測試準確性也有所提高。 在這種情況下,結果更加明顯。對於Conv-2(Pm = 8.8%),中獎票證達到最小驗證損失的最快速度是3.5倍;對於Conv-4(Pm = 9.2%),票證可以達到3.5倍;對於Conv-6(Pm = 15.1%),票證可以達到2.5倍。 Conv-2(Pm = 4.6%),Conv-4(Pm = 11.1%),3.5和Conv-6(Pm = 26.4%)的測試精度最高提高3.4個百分點。所有三個網絡均保持高於原始水平 Pm> 2%時的平均測試準確度。如第2節中所述,提前停止迭代時的訓練準確度隨測試準確度而提高。 但是,對於Conv-2,迭代20,000,對於Conv-4,迭代25,000,對於Conv-6,迭代30,000(與原始網絡的最終訓練迭代相對應的迭代),當Pm≥2%時,所有網絡的訓練精度均達到100%(附錄D, 圖13)和中獎彩票仍保持較高的測試準確性(右下圖5)。 這意味着測試和培訓準確度之間的差距較小,這表明票證的泛化效果更好

與第2節中一樣,提早停止迭代的訓練準確性隨測試準確性而提高。 但是,對於Conv-2,迭代20,000,對於Conv-4,迭代25,000,對於Conv-6,迭代30,000(與原始網絡的最終訓練迭代相對應的迭代),當Pm≥2%時,所有網絡的訓練精度均達到100%(附錄D, 圖13)和中獎彩票仍保持較高的測試準確性(右下圖5)。 這意味着測試和培訓準確性之間的差距較小,可以更好地概括票證。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章