HPC System Design

設計一個3000W功率以內的集羣,對構建的集羣機型優缺點分析,集羣要基於Inspur NF5280M5 server

Item

Name

Configuration

Power Estimation

Server

Inspur

NF5280M5

CPU : Intel Xeon Platinum 8176M × 2

(2.1GHz ∼3.8GHz, 28 Cores)

TDP : 165 W × 2

GPU : NVIDIA TESLA V100 × 4

TDP : 250 W × 4

Memory: 64GB , DDR4 , 2400MHz × 12

TDP : 6 W × 12

Hard Disk: Intel SSD Pro 7600p × 24(512GB, M.2, PCIe 3.0x4)

TDP : 50 mW × 24

One Node : 1403.2W (2 Node in System)

HCA

Card

FDR

InfiniBand Mellanox ConnectX-3 HCA card, Single port, QSFP, FDR IB

One Node : 9 W

(2 Node in System)

Switch

FDR-IB Switch

SwitchXTM FDR InfiniBand switch, 36 QSFP port

130 W

Cable

InfiniBand cable

InfiniBand FDR optical fiber cable, QSFP port, cooperating with the InfiniBand switch for use

NaN

一個單節點中儘可能多地容納更多計算資源,提高整個HPC平臺的性能/功率比。同時,由於網絡傳輸導致的巨大I / O開銷可以最小化,以在3000瓦功率限制下實現最大化性能。此外,基於CUDA的GPGPU具有比具有相同功耗的CPU更大的並行計算能力。基於此,我們的設計標準是儘可能充分利用單個節點的資源。在整個系統中,使用了兩臺NF5280M5服務器,基於表所示的配置。整個平臺的理論功耗爲2954.4 KW。在僅計算基於mU的GPGPU計算性能時,理論上的單精度浮點性能可達到56 Tflops。在每個節點中,我們充分利用Intel Xeon Platinum 8176M處理器支持的最大內存容量,並使用單個64GB DDR4-ECC內存儘可能增加內存容量,以便使用高速訪問性能內存減少系統I / O瓶頸。我們使用4個通道。在功耗相同的前提下,NVIDIA TESLA V100 GPU在深度學習等場景中提升了系統性能。與此同時,我們使用24個基於NVME的SSD組成RAID陣列,以提供超過10 GB / s的磁盤I / O.吞吐量。
在系統中兩個節點的連接部分中,我們通過16根InfiniBand線鏈接,以在兩個計算節點之間實現高達8GB/s的數據交換速度。同時,通過普通以太網連接訪問主節點進行環境配置。
總體配置圖

 

GPU的浮點計算理論峯值能力測試跟CPU的計算方式基本一樣,
理論峯值 = GPU芯片數量*GPU Boost主頻*核心數量*單個時鐘週期內能處理的浮點計算次數,
只不過在GPU裏單精度和雙精度的浮點計算能力需要分開計算,以最新的Tesla P100爲例:
雙精度理論峯值 = FP64 Cores * GPU Boost Clock * 2 = 1792 *1.48GHz*2 = 5.3 TFlops
單精度理論峯值 = FP32 cores * GPU Boost Clock * 2 = 3584 * 1.58GHz * 2 =  10.6 TFlops

https://blog.csdn.net/haima1998/article/details/78250143/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章