首页>新闻公告
超算中心瀚海20系统停机维修通知(更新-251029)
2025-09-22

各位超算中心用户:

 瀚海20系统自7月26日故障维修(超算中心瀚海20系统停机维修通知)以来,中心联合存储原厂厂家、gpfs文件系统专家等持续对系统尝试进行修复,因除多块硬盘异常故障之外,后续发现其他多个关键性硬件设备故障,修复难度极大,每一步都在尽量保障数据不丢失的前提下谨慎尝试,因存储数据总量较大,每一步需要较长时间才能知道是否成功或下一步操作。

 后续瀚海20系统维修进展情况,将在此页面按发布时间持续更新:


2025年09月22日:目前尚无法确定何时可以恢复使用。

对存储做了以下动作:

1、对磁盘进行了bad block的清除,目前已经清除了bad block;启动后台硬盘的verify,进行硬件层(如坏块)的清理。

2、文件系统进行mmfsck,目前已经清除了inode、subblock的错误,对约4000个文件索引inode进行直接修复,将丢失部分原inode索引,丢失数据的概率较小。

3、对约400万个异常文件目录directory进行修复,因直接涉及用户文件,进行只修复不异常删除操作,由于总体文件数量非常大,做一次mmfsck需要接近18个小时,需要重复不断的做。

4、目前尚不能确定还需要多久可以完全修复所有的directory错误。


其他信息更新:

1、着急计算或者下载瀚海20系统上数据的用户,请先申请开通瀚海22系统上的账号计算。

2、新增瀚海25超算系统服务器已经到货,本周开始上架安装,预计在10月~11月开放给用户使用,系统基本配置:2PB高IO存储,85台计算节点,每个计算节点256核CPU,总计21760核。后续将对此系统进行进一步扩容。


2025年10月29日:

一、原存储进展:

存储系统仍在执行mmfsck操作尝试恢复中,目前尚无法确定何时可以恢复正常访问。

二、系统临时恢复使用:

1、中心新增了一台存储临时使用,系统也临时恢复使用。各用户账号密码保持不变,二次验证信息进行重置,相关信息已群发邮件给大家,如未收到邮件,请反馈账号名到sccadmin@ustc.edu.cn。

2、注意事项:

  2.1 因临时使用新存储,登录上后没有原存储文件。原存储在修复前无法挂载访问下载数据,完全修复后将重新恢复挂载到瀚海20系统上。

  2.2 仅各人的二次验证信息重置更新,登录密码、提交作业方式等等保持不变。

  2.3 严禁使用jupyter、vscode、cursor、代理软件等方式登录系统或远程到计算节点上挂载后台进程。会被杀掉进程、踢出系统或禁用账号。

  2.4 严禁在登录节点上直接运行程序,所有任务需要通过slurm调度系统提交成作业后计算。

  2.5 按学校规定,请使用正版软件做计算,无版权软件中心不再技术支持。

  2.6 日常做好各自重要文件的下载备份工作,中心无法保障数据的绝对安全,丢失无法恢复。




Copyright 2009 中国科学技术大学超级计算中心 All Rights Reserved