首页>新闻公告
超算中心瀚海20系统停机维修通知(更新)
2025-09-22

各位超算中心用户:

 瀚海20系统自7月26日故障维修(超算中心瀚海20系统停机维修通知)以来,中心联合存储原厂厂家、gpfs文件系统专家等持续对系统尝试进行修复,因除多块硬盘异常故障之外,后续发现其他多个关键性硬件设备故障,修复难度极大,每一步都在尽量保障数据不丢失的前提下谨慎尝试,因存储数据总量较大,每一步需要较长时间才能知道是否成功或下一步操作。

 后续瀚海20系统维修进展情况,将在此页面按发布时间持续更新:


2025年09月22日:目前尚无法确定何时可以恢复使用。

对存储做了以下动作:

1、对磁盘进行了bad block的清除,目前已经清除了bad block;启动后台硬盘的verify,进行硬件层(如坏块)的清理。

2、文件系统进行mmfsck,目前已经清除了inode、subblock的错误,对约4000个文件索引inode进行直接修复,将丢失部分原inode索引,丢失数据的概率较小。

3、对约400万个异常文件目录directory进行修复,因直接涉及用户文件,进行只修复不异常删除操作,由于总体文件数量非常大,做一次mmfsck需要接近18个小时,需要重复不断的做。

4、目前尚不能确定还需要多久可以完全修复所有的directory错误。


其他信息更新:

1、着急计算或者下载瀚海20系统上数据的用户,请先申请开通瀚海22系统上的账号计算。

2、新增瀚海25超算系统服务器已经到货,本周开始上架安装,预计在10月~11月开放给用户使用,系统基本配置:2PB高IO存储,85台计算节点,每个计算节点256核CPU,总计21760核。后续将对此系统进行进一步扩容。


Copyright 2009 中国科学技术大学超级计算中心 All Rights Reserved