話題 | 如何看待索尼公司提出一種新的大規模分佈式訓練方法,在224秒內成功訓練 ImageNet?

http://ai.yanxishe.com/page/question

(文末有福利哦)

社長爲你推薦來自 AI 研習社問答社區的精華問答。如有你也有問題,歡迎進社區提問。

話不多說,直接上題

@ 依耶塔•朱麗 提問:如何看待索尼公司提出一種新的大規模分佈式訓練方法,在224秒內成功訓練 ImageNet?

近日,索尼發佈新的方法,在ImageNet數據集上,使用多達2176個GPU,在224秒內成功訓練了ResNet-50,刷新了紀錄。

索尼的研究人員在224秒內(使用多達2176個GPU)成功訓練了ImageNet/ResNet-50,並在ABCI 集羣上沒有明顯的精度損失。

論文原址:https://arxiv.org/pdf/1811.05233.pdf

對此,你如何看待?

來自社友的討論

▼▼▼

@Peter_Dong

索尼大法好~(PS:此處應有姨父的微笑

@ 叢末

Facebook 使用 256 個Tesla P100 GPU,在 1 小時內訓練完ImageNet/ResNet-50;日本 Perferred Network 公司 Chainer 團隊,15 分鐘訓練好 ImageNet/ResNet-50 ;騰訊機智團隊,6.6 分鐘訓練好 ImageNet/ResNet-50。 索尼這個速度確實非常厲害,但是用的 GPU 好多啊~~

@ 菠蘿菠蘿

據說索尼的祕密武器是這兩件加速裝備: 1)針對大批次(batch)訓練不穩定問題的批次大小控制。這是什麼意思呢?在訓練過程中逐漸提升批次的整體大小——每當訓練的損失圖變“平”,就提大批次,以避開局部最小值。 2)降低了梯度同步的通信開銷(2D-Torus all-reduce),一種“高效的”通信拓撲結構,可以很好地利用上千個 GPU 的帶寬。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章