突破TensorFlow并行瓶颈的开源框架到底是啥？｜InfoQ 大咖说

原創

2021-09-24 10:53

随着摩尔定律的失效，单个计算单元的能力已经远远无法满足数据的指数级增长。比如，快手每天上传的新视频超过千万条，即便训练简单的分类模型（比如 ResNet），使用单机单卡的算力，训练快手日内新增视频都需要超过一百天的时间。因此，在数据爆炸性增长的互联网行业，多机多卡的并行训练成为了大数据时代的必然。随着深度学习模型功能的日益强大，分布式训练任务的通信成本和所需算力也随之急剧增长。

然而，由于多机多卡并行带来的额外通讯成本，加速比（speedup）经常让大家失望，从而形成了大厂“堆资源”，没资源的“干瞪眼”的局面。比如，Google 的 Downpour 框架 [1] 使用 80 个 GPU 训练 ImageNet，加速比却只有 12/80=15%。因此如何提升多机多卡中训练的通讯效率成为了并行训练乃至解决数据爆炸性增长的核心问题之一。

项目 GitHub 地址：https://github.com/BaguaSys/bagua

现有的深度学习开源框架（PyTorch，TensorFlow）主要针对系统层面优化，把已有的单机单卡优化算法扩展到多机多卡的场景。虽然系统层面的优化使得并行效率不断提升，但是边际效益却越来越明显。针对这个问题，快手和苏黎世理工（ETH Zürich）联合开发了一款名为“Bagua”的分布式训练框架。

本期，快手Senior Staff Research Scientist 廉相如现身大咖说，与我们分享Bagua的核心技术思路。

直播大纲：

1.分布式训练框架当前面临的问题

2.Bagua在性能和通讯层面所做的优化

3.开发者如何抉择合适的框架

4.深度学习未来的发展方向是什么？

讲师介绍：

廉相如，快手 Senior Staff Research Scientist。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

突破TensorFlow并行瓶颈的开源框架到底是啥？｜InfoQ 大咖说

如何基于surging跨网关跨语言进行缓存降级

2024合集

程序员天天 CURD，怎么才能成长，职业发展的思考(2)

移位操作搞定两数之商

教你用Perl实现Smgp协议

如何通过前端表格控件在10分钟内完成一张分组报表？

win11关闭自动检测病毒删文件

通用代码生成器简介

lightdb 单机模式下数据库平移

千兆宽带实际网速能到达多少？

2021雲智技術論壇-知識智能化專場

智慧家庭場景的推薦系統的發展歷程和方向 | InfoQ《公開課》

中國卓越技術團隊訪談錄（2021年第六季）

共話“勒索軟件”應對之道——能源篇

共話“勒索軟件”應對之道——電子政務篇

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結