目的:
1.提供大規模的計算能力,爲了能夠快速訓練
2.能夠訓練大型的模型;
3.能夠方便你使用各種模型,優化方法和調整參數。
三種Frameworks:
Multi-GPU, data parallelismL:
模型複製到多個GPU上,數據並行的傳入GPU進行訓練,每輪訓練需要進行parameters collection和parameters distribution。
Multi-GPU,modal and data parallelism
模型和數據都並行化處理,worker group間數據並行,worker group內模型並行。
CPU cluster: