話題 | 如何看待索尼公司提出一種新的大規模分佈式訓練方法，在224秒內成功訓練 ImageNet？

原創

AI研習社

2018-12-14 10:30

http://ai.yanxishe.com/page/question

（文末有福利哦）

社長爲你推薦來自 AI 研習社問答社區的精華問答。如有你也有問題，歡迎進社區提問。

話不多說，直接上題

@ 依耶塔•朱麗提問：如何看待索尼公司提出一種新的大規模分佈式訓練方法，在224秒內成功訓練 ImageNet？

近日，索尼發佈新的方法，在ImageNet數據集上，使用多達2176個GPU，在224秒內成功訓練了ResNet-50，刷新了紀錄。

索尼的研究人員在224秒內（使用多達2176個GPU）成功訓練了ImageNet/ResNet-50，並在ABCI 集羣上沒有明顯的精度損失。

論文原址：https://arxiv.org/pdf/1811.05233.pdf

對此，你如何看待？

來自社友的討論

▼▼▼

@Peter_Dong

索尼大法好~（PS：此處應有姨父的微笑）

@ 叢末

Facebook 使用 256 個Tesla P100 GPU，在 1 小時內訓練完ImageNet/ResNet-50；日本 Perferred Network 公司 Chainer 團隊，15 分鐘訓練好 ImageNet/ResNet-50 ；騰訊機智團隊，6.6 分鐘訓練好 ImageNet/ResNet-50。索尼這個速度確實非常厲害，但是用的 GPU 好多啊~~

@ 菠蘿菠蘿

據說索尼的祕密武器是這兩件加速裝備： 1）針對大批次（batch）訓練不穩定問題的批次大小控制。這是什麼意思呢？在訓練過程中逐漸提升批次的整體大小——每當訓練的損失圖變“平”，就提大批次，以避開局部最小值。 2）降低了梯度同步的通信開銷（2D-Torus all-reduce），一種“高效的”通信拓撲結構，可以很好地利用上千個 GPU 的帶寬。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

話題 | 如何看待索尼公司提出一種新的大規模分佈式訓練方法，在224秒內成功訓練 ImageNet？

社長爲你推薦來自 AI 研習社問答社區的精華問答。如有你也有問題，歡迎進社區提問。

話不多說，直接上題

杭州的 IT 崩盤了麼？

開源高性能結構化日誌模塊NanoLog

Azure Virtual Network (22) 多訂閱使用Azure DNS解析問題 Windows Azure Platform 系列文章目錄

Python 潮流週刊#55：分享 9 個高質量的技術類信息源！

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

刷arxiv有哪些技巧？5個問題快速理解機器學習論文

圖解 | NumPy可視化指南 numpy數組 vs. Python列表 1.向量與1維數組 2.矩陣和二維數組 3、3維及更高維數組參考

準備開始學習機器學習？有人幫你選出了 top 8 優質課程：CS229、 Stat 451……

人工智能和機器學習之間的區別，你真的清楚嗎? 什麼是機器學習？什麼是人工智能（AI）？爲什麼科技公司傾向於將AI和ML交替使用？

讓審稿人更感興趣的論文標題和摘要如何撰寫？簡潔、精確、周密是關鍵標題標題類型起草合適的標題好標題清單摘要類型摘要類型編寫合適的摘要參考文獻

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結