微軟和谷歌各自開源新的分佈式深度學習訓練框架

原創

2020-11-04 13:33

微軟和谷歌一直積極致力於訓練深度神經網絡的新模型，並推出了各自的新框架，Microsoft PipeDream和Google GPipe。二者使用了類似的原理來擴展深度學習模型的訓練能力，具體細節在相應的研究論文中分別給出（參見PipeDream和GPipe的論文）。

作爲深度學習生命週期中的一個組成環節，訓練工作在模型擴展到一定規模時是十分具有挑戰性的。雖然訓練一個實驗性的基本模型相對簡單，但訓練的複雜性會隨模型的質量和規模呈線性增長。例如，在2014年ImageNet視覺識別競賽中，具有400萬參數的GoogleNet以74.8%的正確率勝出。三年後，2017年ImageNet競賽的勝出者SENet（Squeeze-and-Excitation Networks）給出了82.7%的正確率，但模型規模增大了36倍多，達1.458億個參數。同一時期，GPU內存規模只增長了約三倍.

模型規模的擴展意在實現更高的正確率，但會使模型訓練愈發具有挑戰性。上面的例子說明，依賴改進GPU架構去實現更高效的訓練是難以持續的策略，繼續實現訓練的擴展需要分佈式計算方法，將工作負載並行化到各個計算節點上。訓練並行化這一理念並不難理解，但是其實現是非常複雜的。開發人員需考慮如何將模型的知識獲取分區到不同的節點，隨後如何將各部分重新整合爲一個整體的模型。訓練並行化是深度學習模型擴展的必須手段。針對挑戰，谷歌和微軟兩家公司各自付出了長達多月的努力來做研究和工程化，並分別發佈了GPipe和PipDream。

原文鏈接:【https://www.infoq.cn/article/jGu34TGoHLCqwoqdALXC】。未經作者許可，禁止轉載。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

微軟和谷歌各自開源新的分佈式深度學習訓練框架

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

公衆號5月C#/.NET熱文一覽

git 下載大陸鏡像地址

Facebook開源框架如何簡化 PyTorch 實驗

微軟和谷歌各自開源新的分佈式深度學習訓練框架

探祕微軟大規模人工智能的新框架ZeRO-2

簡化TensorFlow和Spark互操作性的問題：LinkedIn開源Spark-TFRecord

微軟研究團隊使用遷移學習，訓練現實世界中的無人機

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結