本talk将分享如何在IA架构服务器集群上利用基于英特尔优化的Tensorflow、MXNet、PyTorch 开源方案高效地搭建分布式AI模型训练系统,并利用其进行分布式模型训练。
演讲提纲:
- 构建基于IA架构的容器或虚拟化服务器集群
- 如何在IA架构服务器优化分布式任务性能
- 如何利用Horovod构建分布式训练代码
- 如何优化分布式训练超参数
听众收益:
-
了解在IA架构服务器集群搭建分布式AI模型训练的原理
-
掌握在IA架构服务器优化分布式性能的要点
-
获得基于Horovod分布式方案训练的经验分享
内容亮点:
-
现代Xeon处理器上的NUMA特性
-
VM、Docker分布式训练环境
-
Horovod分布式训练