HPC System Design

设计一个3000W功率以内的集群,对构建的集群机型优缺点分析,集群要基于Inspur NF5280M5 server

Item

Name

Configuration

Power Estimation

Server

Inspur

NF5280M5

CPU : Intel Xeon Platinum 8176M × 2

(2.1GHz ∼3.8GHz, 28 Cores)

TDP : 165 W × 2

GPU : NVIDIA TESLA V100 × 4

TDP : 250 W × 4

Memory: 64GB , DDR4 , 2400MHz × 12

TDP : 6 W × 12

Hard Disk: Intel SSD Pro 7600p × 24(512GB, M.2, PCIe 3.0x4)

TDP : 50 mW × 24

One Node : 1403.2W (2 Node in System)

HCA

Card

FDR

InfiniBand Mellanox ConnectX-3 HCA card, Single port, QSFP, FDR IB

One Node : 9 W

(2 Node in System)

Switch

FDR-IB Switch

SwitchXTM FDR InfiniBand switch, 36 QSFP port

130 W

Cable

InfiniBand cable

InfiniBand FDR optical fiber cable, QSFP port, cooperating with the InfiniBand switch for use

NaN

一个单节点中尽可能多地容纳更多计算资源,提高整个HPC平台的性能/功率比。同时,由于网络传输导致的巨大I / O开销可以最小化,以在3000瓦功率限制下实现最大化性能。此外,基于CUDA的GPGPU具有比具有相同功耗的CPU更大的并行计算能力。基于此,我们的设计标准是尽可能充分利用单个节点的资源。在整个系统中,使用了两台NF5280M5服务器,基于表所示的配置。整个平台的理论功耗为2954.4 KW。在仅计算基于mU的GPGPU计算性能时,理论上的单精度浮点性能可达到56 Tflops。在每个节点中,我们充分利用Intel Xeon Platinum 8176M处理器支持的最大内存容量,并使用单个64GB DDR4-ECC内存尽可能增加内存容量,以便使用高速访问性能内存减少系统I / O瓶颈。我们使用4个通道。在功耗相同的前提下,NVIDIA TESLA V100 GPU在深度学习等场景中提升了系统性能。与此同时,我们使用24个基于NVME的SSD组成RAID阵列,以提供超过10 GB / s的磁盘I / O.吞吐量。
在系统中两个节点的连接部分中,我们通过16根InfiniBand线链接,以在两个计算节点之间实现高达8GB/s的数据交换速度。同时,通过普通以太网连接访问主节点进行环境配置。
总体配置图

 

GPU的浮点计算理论峰值能力测试跟CPU的计算方式基本一样,
理论峰值 = GPU芯片数量*GPU Boost主频*核心数量*单个时钟周期内能处理的浮点计算次数,
只不过在GPU里单精度和双精度的浮点计算能力需要分开计算,以最新的Tesla P100为例:
双精度理论峰值 = FP64 Cores * GPU Boost Clock * 2 = 1792 *1.48GHz*2 = 5.3 TFlops
单精度理论峰值 = FP32 cores * GPU Boost Clock * 2 = 3584 * 1.58GHz * 2 =  10.6 TFlops

https://blog.csdn.net/haima1998/article/details/78250143/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章