設計一個3000W功率以內的集羣,對構建的集羣機型優缺點分析,集羣要基於Inspur NF5280M5 server
Item |
Name |
Configuration |
Power Estimation |
Server |
Inspur NF5280M5 |
CPU : Intel Xeon Platinum 8176M × 2 (2.1GHz ∼3.8GHz, 28 Cores) TDP : 165 W × 2 GPU : NVIDIA TESLA V100 × 4 TDP : 250 W × 4 Memory: 64GB , DDR4 , 2400MHz × 12 TDP : 6 W × 12 Hard Disk: Intel SSD Pro 7600p × 24(512GB, M.2, PCIe 3.0x4) TDP : 50 mW × 24 |
One Node : 1403.2W (2 Node in System) |
HCA Card |
FDR |
InfiniBand Mellanox ConnectX-3 HCA card, Single port, QSFP, FDR IB |
One Node : 9 W (2 Node in System) |
Switch |
FDR-IB Switch |
SwitchXTM FDR InfiniBand switch, 36 QSFP port |
130 W |
Cable |
InfiniBand cable |
InfiniBand FDR optical fiber cable, QSFP port, cooperating with the InfiniBand switch for use |
NaN |
一個單節點中儘可能多地容納更多計算資源,提高整個HPC平臺的性能/功率比。同時,由於網絡傳輸導致的巨大I / O開銷可以最小化,以在3000瓦功率限制下實現最大化性能。此外,基於CUDA的GPGPU具有比具有相同功耗的CPU更大的並行計算能力。基於此,我們的設計標準是儘可能充分利用單個節點的資源。在整個系統中,使用了兩臺NF5280M5服務器,基於表所示的配置。整個平臺的理論功耗爲2954.4 KW。在僅計算基於mU的GPGPU計算性能時,理論上的單精度浮點性能可達到56 Tflops。在每個節點中,我們充分利用Intel Xeon Platinum 8176M處理器支持的最大內存容量,並使用單個64GB DDR4-ECC內存儘可能增加內存容量,以便使用高速訪問性能內存減少系統I / O瓶頸。我們使用4個通道。在功耗相同的前提下,NVIDIA TESLA V100 GPU在深度學習等場景中提升了系統性能。與此同時,我們使用24個基於NVME的SSD組成RAID陣列,以提供超過10 GB / s的磁盤I / O.吞吐量。
在系統中兩個節點的連接部分中,我們通過16根InfiniBand線鏈接,以在兩個計算節點之間實現高達8GB/s的數據交換速度。同時,通過普通以太網連接訪問主節點進行環境配置。
總體配置圖
GPU的浮點計算理論峯值能力測試跟CPU的計算方式基本一樣,
理論峯值 = GPU芯片數量*GPU Boost主頻*核心數量*單個時鐘週期內能處理的浮點計算次數,
只不過在GPU裏單精度和雙精度的浮點計算能力需要分開計算,以最新的Tesla P100爲例:
雙精度理論峯值 = FP64 Cores * GPU Boost Clock * 2 = 1792 *1.48GHz*2 = 5.3 TFlops
單精度理論峯值 = FP32 cores * GPU Boost Clock * 2 = 3584 * 1.58GHz * 2 = 10.6 TFlops