本talk將分享如何在IA架構服務器集羣上利用基於英特爾優化的Tensorflow、MXNet、PyTorch 開源方案高效地搭建分佈式AI模型訓練系統,並利用其進行分佈式模型訓練。
演講提綱:
- 構建基於IA架構的容器或虛擬化服務器集羣
- 如何在IA架構服務器優化分佈式任務性能
- 如何利用Horovod構建分佈式訓練代碼
- 如何優化分佈式訓練超參數
聽衆收益:
-
瞭解在IA架構服務器集羣搭建分佈式AI模型訓練的原理
-
掌握在IA架構服務器優化分佈式性能的要點
-
獲得基於Horovod分佈式方案訓練的經驗分享
內容亮點:
-
現代Xeon處理器上的NUMA特性
-
VM、Docker分佈式訓練環境
-
Horovod分佈式訓練