微軟和谷歌各自開源新的分佈式深度學習訓練框架

微軟和谷歌一直積極致力於訓練深度神經網絡的新模型,並推出了各自的新框架,Microsoft PipeDreamGoogle GPipe。二者使用了類似的原理來擴展深度學習模型的訓練能力,具體細節在相應的研究論文中分別給出(參見PipeDreamGPipe的論文)。

作爲深度學習生命週期中的一個組成環節,訓練工作在模型擴展到一定規模時是十分具有挑戰性的。雖然訓練一個實驗性的基本模型相對簡單,但訓練的複雜性會隨模型的質量和規模呈線性增長。例如,在2014年ImageNet視覺識別競賽中,具有400萬參數的GoogleNet以74.8%的正確率勝出。三年後,2017年ImageNet競賽的勝出者SENet(Squeeze-and-Excitation Networks)給出了82.7%的正確率,但模型規模增大了36倍多,達1.458億個參數。同一時期,GPU內存規模只增長了約三倍.

image

模型規模的擴展意在實現更高的正確率,但會使模型訓練愈發具有挑戰性。上面的例子說明,依賴改進GPU架構去實現更高效的訓練是難以持續的策略,繼續實現訓練的擴展需要分佈式計算方法,將工作負載並行化到各個計算節點上。訓練並行化這一理念並不難理解,但是其實現是非常複雜的。開發人員需考慮如何將模型的知識獲取分區到不同的節點,隨後如何將各部分重新整合爲一個整體的模型。訓練並行化是深度學習模型擴展的必須手段。針對挑戰,谷歌和微軟兩家公司各自付出了長達多月的努力來做研究和工程化,並分別發佈了GPipe和PipDream。

原文鏈接:【https://www.infoq.cn/article/jGu34TGoHLCqwoqdALXC】。未經作者許可,禁止轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章