MIT CSAIL新方法:大幅縮小神經網絡規模但不犧牲預測精度,將對遷移學習產生影響

近日,美國麻省理工學院計算機科學與人工智能實驗室(MIT CSAIL)發表了一篇名爲《彩票假想:尋找稀疏、可訓練的神經網絡》(The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks)的論文,詳細解析瞭如何在保證精準度不打折扣的前提下縮小神經網絡規模。經試驗,這種方法最高可以將模型大小縮小10倍,甚至訓練速度提高3.5倍,預測精度提高3.5%。

深度神經網絡是一種仿生物神經元的數學函數層,作爲通用類型的AI架構,它們能夠執行從自然語言處理到計算機視覺的各類任務。但這並不意味着它們無所不能。深度神經網絡通常需要非常龐大和合適的大型語料庫,即使是用最昂貴的專用硬件,也需要數天才能進行訓練。

但這種情況可能將有所改變。麻省理工學院計算機科學與人工智能實驗室(CSAIL)的科學家在一項新研究《彩票假想:尋找稀疏、可訓練的神經網絡”》中表示,深度神經網絡包含的子網絡可以縮小10倍,同時訓練之後預測精度保持同等水平,甚至在某些情況下比原始網絡速度更快。

這項成果將在新奧爾良舉行的國際學習代表大會(ICLR)上發表,從大約1,600份提交論文中脫穎而出,被評爲該會議兩篇最佳論文之一。

“首先,如果不想初始網絡那麼大,爲什麼不能在一開始就創建一個大小適中的網絡呢?”博士生和論文合著者Jonathan Frankle在一份聲明中說。“通過神經網絡,你可以對這個龐大的結構進行隨機初始化,在經過對大量數據進行訓練之後,它神奇地起作用了。這種大型結構就像你買了一大包彩票,但其中只有少量門票實際上會讓你發財。然而,我們仍然需要一種技術,在不知道中獎號碼之前找到中獎的幸運兒。“

image

上圖:在神經網絡中查找子網 圖片來源:麻省理工學院CSAIL

規模縮小10倍,速度提高3.5倍,精度提高3.5%

這裏,我們將彩票假設應用於CIFAR10上的卷積網絡,增加了學習問題的複雜性和網絡的規模。我們考慮使用圖2中的Conv-2,Conv-4和Conv-6架構,它們是VGG家族的縮小變體(Simonyan&Zisserman,2014)。網絡有兩個、四個或六個卷積層,後面是兩個完全連接的層;每兩個卷積層發生最大池化。這些網絡範圍廣泛,包括將近到完全連接到傳統卷積網絡的類型,Conv-2中卷積層的參數不到1%,Conv-6.3中的參數近三分之二。

image

尋找中獎彩票。上圖中的實線表示來自每層修剪速率的Conv-2(藍色),Conv-4(橙色)和Conv-6(綠色)的迭代彩票實驗。

Lenet:隨着網絡被修剪,與原始網絡相比,它學得更快,測試準確度也提高了。在這種情況下,結果更加明顯。中獎彩票驗證損失率達到最低,Conv-2快3.5倍(Pm = 8.8%),Conv-4快3.5倍(Pm = 9.2%),Conv-6爲2.5x(Pm = 15.1%)。在精度度上,Conv-2最高提高了3.4%(Pm = 4.6%),Conv-4提高3.5%(Pm = 11.1%),Conv-6提高3.3%(Pm = 26.4%)。當Pm> 2%時,所有三個網絡都保持在其原始平均測試精度之上。

研究人員使用的方法涉及消除功能(或神經元)之間不必要的連接,使其適應低功率設備,這一過程通常稱爲修剪。(他們特別選擇了具有最低“權重”的連接,這表明它們的重要性最低。)接下來,他們在沒有修剪連接的情況下訓練網絡並重置權重,在修剪其他連接後,他們確定了可以在不影響模型預測能力的情況下刪除多少連接。

在不同條件、不同網絡上重複該過程數萬次之後,報告顯示他們的AI模型始終比其完全連接的母網絡的規模小10%到20%。

“令人驚訝的是,重新設置一個表現良好的網絡通常會帶來更好的結果,”共同作者兼助理教授Michael Carbin說。“這表明,第一次的成果都不是最完美的,模型學會自我改進的空間還很大。”

Carbin和Frankle指出,他們只考慮以較小數據集爲中心和以視覺爲中心的分類任務,未來,他們將探討爲什麼某些子網特別擅長學習以及快速發現這些子網的方法。另外,他們認爲這個結果可能對遷移學習產生影響,遷移學習技術可以訓練針對某一任務的網絡對另其他任務同樣適用。

參考鏈接:https://arxiv.org/pdf/1803.03635.pdf
https://venturebeat.com/2019/05/06/mit-csail-details-technique-that-shrinks-the-size-of-neural-networks-without-compromising-accuracy/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章