瀚海20超级计算系统¶
瀚海20超级计算系统采用Mellonax HDR 100Gbps高速互联,具有Intel Xeon Scale 6248、华为鲲鹏920 5250等不同类型CPU及NVIDIA Tesla V100 GPU和华为Atlas 300 AI卡等协处理器,共计2个管理节点、2个用户登录节点、720个普通CPU计算节点(采用高效节能的板级液冷技术)、10个双V100 GPU计算节点、8个2TB Intel AEP大内存节点、20个华为鲲鹏CPU计算节点构成(其中10个各含6颗华为Atlas 300 AI加速卡),计算节点共30480颗CPU核心和20块NVIDIA V100 GPU卡,总双精度浮点计算能力:2.51PFlops(千万亿次/秒,CPU:2.37PFlops,GPU:0.14PFlops),Atlas计算能力:3840 TOPS INT8 + 15360T FLOPS FP16。
- 管理节点(2个):
用于系统管理,普通用户无权登录。
节点名 CPU 内存 硬盘 型号 admin[01 -02] 2*Intel Xeon Scale 6248(2.5GHz,20核,27.5MB),40核/节点192GB DDR42933MHz2*1TB NVMe 华为FusionServer2288H V5 - 用户登录节点(3个):
- 用于用户登录、编译与通过作业调度系统提交管理作业等。
- 禁止在此节点上不通过作业调度系统直接运行作业。
节点名 CPU 内存 硬盘 型号 login[01 - 02] 2*Intel Xeon Scale 6248(2.5GHz,20核,27.5MB),40核/节点192GB DDR4 2933MHz 2*1TB NVMe 华为FusionServer2288H V5Taishan-Login 16*Hi1620 ARM CPU(2.6GHz)64GB DDR4 2666MHz 50GB 华为泰山 2280H V2 - Intel Xeon CPU普通计算节点(720个):
用于多数作业。
节点名 CPU 内存 硬盘 型号 cnode[001 - 720] 2*Intel Xeon Scale 6248(2.5GHz,20核,27.5MB),40核/节点192GB DDR4 2933MHz 1*240GB SSD 华为FusionServerXH321L V5 - Intel Xeon CPU 2TB AEP内存计算节点(8个):
AEP内存性能低于普通内存,性价比高,适合大内存应用。
节点名 CPU 普通内存 AEP内存 硬盘 型号 anode[01 - 08]2*Intel Xeon Scale 6248(2.5GHz,20核,27.5MB)40核/节点384GB DDR42933MHz2TB(8*256GB) 1TB NVMe 华为FusionServer2288H V5 - GPU计算节点(12个):
适合GPU应用,加速性能:https://developer.nvidia.com/hpc-application-performance。
节点名 CPU 内存 GPU 硬盘 型号 gnode[01 - 10] 2*Intel Xeon Scale 6248(2.5GHz,20核,27.5MB),40核/节点384GB DDR42933MHz2*NVIDIATesla V1001TB NVMe 华为FusionServerG530 V5gnode-a100-[1 - 2] 2*AMD Rome 7742(2.25GHz, 64核),128核/节点1TB DDR43200MHz8*NVIDIA A100Tensor Core,40GB,NVLink2*1.92TB+4*3.84TB NVME融科联创RW-4124GO-NART¶ GPU单元显存主频核数 计算能力(TFlops) Tensor CUDA 深度学习 半精度 单精度 双精度 GV10032GBHBM2基准1230MHz,加速1370MHz640 5120 112 28 14 7 ¶ 指标 数值 峰值性能FP64 9.7TFLOPS FP64 Tensor Core 19.5TFLOPS FP32 19.5TFLOPS FP32 Tensor Core 312TFLOPS BFLOAT16 Tensor Core 624TFLOPS FP16 Tensor Core 624TFLOPS INT8 Tensor Core 1248TOPS INT4 Tensor Core 2496TOPS GPU内存容量 80GB 带宽 1935GB/s 互联 NVIDIA NVLink 600GB/s 多实例GPU 各种实例大小(最大为7 MIG@10GB) - 鲲鹏计算节点(20个):
- 华为Atlas AI卡,主要提供推理能力,参见:https://support.huawei.com/enterprise/zh/ai-computing-platform/atlas-300-pid-23464095
注解
使用华为Atlas卡,需特殊申请,加入HwHiAiUser组才可以(运行
id
可以查看自己所在组)。节点名 CPU 内存 硬盘 计算网络 型号 rnode[01 - 09],rnode[11 - 21]2*鲲鹏920 5250(48核, 2.6GHz),96核/节点256GB DDR42666MHz1*300GBSAS100Gbps以太网(支持RoCE)华为TaiShan2280 V2其中:rnode[12-21]每台配置6颗Atlas 300 AI卡,rnode[01-11]未配置。
¶ 内存 AI算力 编解码能力 LPDDR4x32GB3200Mbps64TOPS INT8,256TFLOPS FP16,256TFLOPS FP16- 支持H.264硬件解码,64路1080P 30FPS(2路3840*2160 60FPS)
- 支持H.265硬件解码,64路1080P 30FPS(2路3840*2160 60FPS)
- 支持H.264硬件编码,4路1080P 30FPS
- 支持H.265硬件编码,4路1080P 30FPS
- JPEG解码能力4x1080P 256FPS,编码能力4x1080P 64FPS
- PNG解码能力4x 1080P 48FPS
- 存储系统:
- 硬件:1台长虹DDN GS7990 GRID Scaler及4台DDN SS9012磁盘扩展柜,配置280块8TB SATA硬盘+64块16TB SATA硬盘
- 并行文件系统:GRID Scaler
- 实际可用空间:2PB
- 默认用户磁盘配额:100GB
- 计算网络:Mellonax HDR 100Gbps
- 管理网络:千兆以太网
- 操作系统:CentOS Linux 7.7.1908
- 编译器:Intel、PGI和GNU等C/C++ Fortran编译器
- 数值函数库:Intel MKL
- 并行环境:Intel MPI和Open MPI等,支持MPI并行程序;各节点内的CPU共享内存,节点内既支持分布式内存的MPI并行方式,也支持共享内存的OpenMP并行方式;同时支持在节点内部共享内存,节点间分布式内存的混合并行模式。
- 资源管理和作业调度:Slurm 19.05.5
- 常用公用软件安装目录:
/opt
。请自己查看有什么软件,有些软件需要在自己等配置文件中设置后才可以使用。