首页>新闻公告
超算中心瀚海20系统停机维护通知
2021-09-10

各位中心用户:

您好!

瀚海20系统(http://scc.ustc.edu.cn/2019/1206/c435a407486/page.htm) 计划9月23日开始停机维护,预期时间需要4-7天,期间进行如下维护工作:

1、20多台IB交换机、700多台服务器节点的IB卡的固件以及驱动升级,解决一些导致系统不稳定的bug问题。停机主要原因

2、CentOS操作系统版本计划从7.7升级到7.9,如遇兼容性无法解决问题,则不升级。

3、无盘系统镜像重新制作,增加计算需要的各软件包等,

4、更新编译器、公用计算软件版本、更新gpu节点驱动等

5、slurm作业调度系统版本升级

6、xcat集群管理软件版本升级

7、gpfs存储文件系统网络切换,磁盘限额管理等

8、更换系统中部分故障硬件,700多台机器重新上下架增加必要防水设施。

9、服务器液冷管道冲洗

10、机房ATS故障模块更换、制冷空调室外机组维护

TC4600系统照常运行,不受影响。

以上维护工作量较大且集中,预计需要20多人连续几天同时协调操作,维护结束后会在超算中心主页发通知公告。请近期勿在提交长时间运行的作业,以免浪费机时电力等。

感谢各位用户对超算中心工作的理解与支持!

 

-------超算中心 ,63602248、63600316

 2020.09.10


Copyright 2009 中国科学技术大学超级计算中心 All Rights Reserved