目的:
1.提供大规模的计算能力,为了能够快速训练
2.能够训练大型的模型;
3.能够方便你使用各种模型,优化方法和调整参数。
三种Frameworks:
Multi-GPU, data parallelismL:
模型复制到多个GPU上,数据并行的传入GPU进行训练,每轮训练需要进行parameters collection和parameters distribution。
Multi-GPU,modal and data parallelism
模型和数据都并行化处理,worker group间数据并行,worker group内模型并行。
CPU cluster: