瀚海22超级计算系统

瀚海22超级计算系统,含有2个管理节点、2个用户登录节点、25个8卡GPU计算节点(单节点64颗Intel Xeon Scale 8358 CPU核(2.6GHz,48MB L3 Cache)、1TB内存、8颗NVIDIA A100 Tensor Core GPU(80GB显存、SXM4、600GB/s NVLink卡间互联)),11PB可用容量高性能存储,采用Mellanox HDR 200Gbps InfiniBand高速互联。纯计算节点共1600颗CPU核及200颗A100 GPU,总双精度浮点计算能力:2.07PFLOPS(千万亿次/秒,CPU:0.13PFLOPS,GPU:1.94PFLOPS);Tensor Float 32(TF32)AI算力:62.4PFLOPS。

  • 管理节点(2个):

    用于系统管理,普通用户无权登录。

    节点名

    CPU

    内存

    硬盘

    高速网络

    型号

    admin22-[01 - 02]

    2*Intel Xeon Scale 8358 (2.6GHz,32核,L3 Cache 48MB),64核/节点

    256GB DDR4 3200MHz

    2*1.6TB NVMe

    HDR 100Gbps InfiniBand

    浪潮NF5280M6

  • 用户登录节点(2个):

    • 用于用户登录、编译与通过作业调度系统提交管理作业等。

    • 禁止在此节点上不通过作业调度系统直接运行作业。

    节点名

    CPU

    内存

    硬盘

    高速网络

    型号

    hanhai22-[01 - 02]

    2*Intel Xeon Scale 8358 (2.6GHz,32核,L3 Cache 48MB),64核/节点

    256GB DDR4 3200MHz

    2*1.6TB NVMe

    HDR 100Gbps InfiniBand

    浪潮NF5280M6

  • GPU计算节点(25个):

    适合GPU应用,加速性能:https://developer.nvidia.com/hpc-application-performance

    节点名

    CPU

    内存

    GPU

    硬盘

    高速网络

    型号

    gnode[01 - 25]

    2*Intel Xeon Scale 8358 (2.6GHz,48MB L3 Cache),64核/节点

    1TB DDR4 3200MHz

    8*NVIDIA A100 (SXM4,80GB显存)

    3.84TB NVMe

    HDR 200Gbps InfiniBand

    浪潮NF5688M6

    单颗NVIDIA A100 Tensor Core GPU参数

    指标

    数值

    FP64峰值性能

    9.7TFLOPS

    FP64 Tensor Core峰值性能

    19.5TFLOPS

    FP32峰值性能

    19.5TFLOPS

    FP32 Tensor Core峰值性能

    312TFLOPS

    BFLOAT16 Tensor Core峰值性能

    624TFLOPS

    FP16 Tensor Core峰值性能

    624TFLOPS

    INT8 Tensor Core峰值性能

    1248TOPS

    GPU显存

    80GB

    GPU显存带宽

    1935GB/s

    互联

    NVIDIA NVLink 600GB/s

    多实例GPU

    最大7个MIG,每个10GB

  • 存储系统:

    • 10台浪潮AS13000G6-HN12,每台8块3.2TB NVMe SSD硬盘,总可用容量180TB

    • 30台浪潮AS13000G6-HN60,每台59块8TB NL-SAS 7.2K RPM硬盘,总可用容量11PB

    • 文件系统:Spectrum Scale Advanced

    • 默认用户磁盘配额:500GB

    • IO性能(通过IOR工具):

    • 1MB块读带宽:单流≥6GB/s,聚合≥100GB/s

    • 1MB块写带宽:单流≥6GB/s,聚合≥75GB/s

    • 8KB块IOPS,随机读≥120万,随机写≥50万

  • 计算网络:Mellonax HDR 200Gbps InfiniBand

  • 管理网络:千兆以太网

  • 操作系统:Ubuntu Server 22.04 LTS

  • 编译器:Intel、NVIDIA HPC SDK和GNU等C/C++ Fortran、GPU编译器

  • 数值函数库:Intel MKL

  • 并行环境:HPC-X、Intel MPI和Open MPI等,支持MPI并行程序;各节点内的CPU共享内存,节点内既支持分布式内存的MPI并行方式,也支持共享内存的OpenMP并行方式;同时支持在节点内部共享内存,节点间分布式内存的混合并行模式。

  • 资源管理和作业调度:Slurm 22.05.3

  • 常用公用软件安装目录:/opt。请自己查看有什么软件,有些软件需要在自己等配置文件中设置后才可以使用。

瀚海20超级计算系统拓扑