首页>新闻公告
瀚海20超级计算系统持续高效运行
2020-09-21

我校投资5000万元建设的瀚海20超级计算系统(之前称为支持海量数据处理的高IO性能计算模拟系统),自2019年12月4日完成竣工验收后,至今已连续稳定运行9个多月。

该套超高密度计算系统主设备采用业界先进的板级液冷技术,每个机柜部署72个节点,功耗高达39KW(密度为一般机柜的2-4倍),位居国内前列。该套系统高效节能,相比传统服务器每年至少可节省电费约20万元。整个系统总计752个节点,30640颗CPU核心,包含720个双路X86 CPU节点、20个国产泰山ARM CPU计算节点、8个2TB Intel AEP大共享内存节点、10个含双NVIDIA Tesla V100卡的GPU节点,以及4个管理和用户登录节点。CPU加GPU的理论峰值计算能力达2.52千万亿次/秒,其中720个双路X86计算节点的实测双精度浮点计算能力为1.479千万亿次/秒,在2020年5月的Top500中排第371,是验收时国内高校最大的单套计算系统(具体配置)。

应用规模海思Hi1620 CPU(秒)Intel 6248 CPU(秒)海思Hi1620 VS Intel 6248
PEPS(Projected Entangled Pair States)8核1227920416166.27%
32核1139517641154.81%
OpenFoam单节点78389797124.99%
2节点37884714124.45%

作为对国产CPU平台的支持与探索,集群配置了泰山ARM服务器,即将升级为支持RoCE的100Gbps以太网高速计算网络。经测试,其对部分应用(PEPS、OpenFoam)具有很好的计算加速能力。特别是对网络中心自编的弱密码探测工具的测试表明,ARM CPU单核心可以达到Intel X86 6248 CPU 80%的能力,考虑到ARM单节点的CPU核心数是6248节点的2.4倍,所以单节点的ARM计算能力为6248的2倍。

瀚海20系统已开设269个系统账户,用户群覆盖学校19个院系;已完成346874个作业的运行,单个作业的平均运行机时为393个CPU核小时,平均运行时间为6小时;长期近满负荷运行,近一个月平均利用率的为94%,在运行的核心数平均为29152,排队中的需求核心数平均为26262核。

对瀚海20上的作业并行规模进行统计后发现,1024核以上并行规模作业的机时占比约为55%,2048核以上并行规模的作业的机时占比约为35%,万核并行规模的作业机时数占比约为3.0%。由此表明,瀚海20系统显著缓解了曙光TC4600系统上千核作业运行吃力的状况。此外不少用户希望能单个作业占用全机运行,显示出我校用户对大规模并行资源需求非常旺盛。

对运行应用的分析显示,瀚海20系统有力的支持了大规模的天体宇宙模拟、高并行的量化计算与等离子体模拟等工作。例如,我校开发的量化模拟软件DGDFT的测试表明,校外某超算在万核以上不再加速,而瀚海20可以在3万核规模仍有不错的加速比。此外,瀚海20特别支持基于紧束缚近似的DCTB程序对108万个钨原子构成的超大体系进行模拟,其使用全部720个节点,仅需要22秒就可以完成一步分子动力学计算。瀚海20系统还用200个节点初步支持了大规模的量子模拟用以加快量子霸权方面的研究工作,未来可更进一步加速其研究进程。

超算中心去年支持用户发表的有致谢的论文高达296篇,今年用户发表在Nature、Science、Cell等且致谢超算中心的顶级论文已达8篇。也在抗击冠状病毒研究中做出了巨大贡献,比如支持生命科学与医学部瞿昆教授团队在《自然·通讯》(Nature  Communications)杂志发表题为“Single-cell analysis of two severe COVID-19  patients reveals a monocyte-associated and tocilizumab-responding  cytokine  storm”的研究论文,该研究揭示了托珠单抗能够有效治疗重症新冠患者的原因。未来,在瀚海20等超级计算系统的支持下,越来越多用户的科研成果必将更上一层楼,可以极大地促进我校的双一流建设发展。

虽然瀚海20系统大大缓解了用户的千核并行需求,激发了用户更主动的提升其应用的计算并行规模,但自今年8月份起,排队等待运行中的作业所需要的CPU核心已经超过整个系统的核心数,不少用户已在抱怨作业排队时间长。这显示出我校对超算需求具有很好的基础,现有计算资源还远远满足不了用户需求,为此超级计算中心已在规划新的超级计算平台,希望能早日缓解用户对计算资源的需求。

Copyright 2009 中国科学技术大学超级计算中心 All Rights Reserved