http://ai.yanxishe.com/page/question
(文末有福利哦)
社長爲你推薦來自 AI 研習社問答社區的精華問答。如有你也有問題,歡迎進社區提問。
話不多說,直接上題
@ 依耶塔•朱麗 提問:如何看待索尼公司提出一種新的大規模分佈式訓練方法,在224秒內成功訓練 ImageNet?
近日,索尼發佈新的方法,在ImageNet數據集上,使用多達2176個GPU,在224秒內成功訓練了ResNet-50,刷新了紀錄。
索尼的研究人員在224秒內(使用多達2176個GPU)成功訓練了ImageNet/ResNet-50,並在ABCI 集羣上沒有明顯的精度損失。
論文原址:https://arxiv.org/pdf/1811.05233.pdf
對此,你如何看待?
來自社友的討論
▼▼▼
@Peter_Dong
索尼大法好~(PS:此處應有姨父的微笑)
@ 叢末
Facebook 使用 256 個Tesla P100 GPU,在 1 小時內訓練完ImageNet/ResNet-50;日本 Perferred Network 公司 Chainer 團隊,15 分鐘訓練好 ImageNet/ResNet-50 ;騰訊機智團隊,6.6 分鐘訓練好 ImageNet/ResNet-50。 索尼這個速度確實非常厲害,但是用的 GPU 好多啊~~
@ 菠蘿菠蘿
據說索尼的祕密武器是這兩件加速裝備: 1)針對大批次(batch)訓練不穩定問題的批次大小控制。這是什麼意思呢?在訓練過程中逐漸提升批次的整體大小——每當訓練的損失圖變“平”,就提大批次,以避開局部最小值。 2)降低了梯度同步的通信開銷(2D-Torus all-reduce),一種“高效的”通信拓撲結構,可以很好地利用上千個 GPU 的帶寬。