中国科学技术大学智算平台(AI Computing Platform)由学校网络信息中心统一建设与运营,是面向管理类 AI 应用与科研深度学习任务的校级智能计算基础设施。平台通过智算虚拟化平台、大模型公共服务平台、训推一体化平台三大子平台协同构成统一的算力底座,实现从模型训练 → 模型托管 → 模型推理 → 智能服务落地的全链条支撑,形成学校数字化建设与 AI 赋能科研创新的核心基础环境。
平台算力资源覆盖 NVIDIA A100与华为 Ascend 910B / 910C等多类型 GPU 集群,提供JupyterLab / 容器 / 虚拟机 / 作业调度 / 模型服务化托管 / 推理网关等运行形态,支持PyTorch、TensorFlow、MindSpore、Megatron-LM、DeepSpeed等主流深度学习框架及大模型技术体系。通过资源调度、配额管理、作业编排、模型托管、访问网关、日志审计与安全沙箱等能力,平台为不同业务类型提供差异化服务能力,使科研算力与管理类 AI 服务在统一治理模型下协同运行。
围绕不同业务形态,平台按“分池分层、按需匹配”原则对 GPU 集群进行资源切分与交付方式优化:
智算虚拟化平台:面向轻量常驻型任务,以虚拟化与容器方式交付,为业务型 AI 组件、部门级智能功能和科研模型验证提供长期可复现运行环境;
大模型公共服务平台:面向重量常驻型任务,通过集中式模型托管与推理服务实现统一访问入口与模型多版本管理,支撑校级智能问答、文本生成、OCR/Embedding 等功能性 AI 服务;
训推一体化平台:面向训练与大规模生成任务,提供作业型算力与分布式训练能力,实现模型从训练到推理上线的贯通式服务体系,让科研成果能够在校内业务真实场景中落地。
依托上述体系,智算平台为学校提供“科研训练有算力、业务调用有接口、模型落地有路径、治理体系有统一”的全流程支持,助力业务部门推进工作智能化、服务智能化,同时推动科研团队在 AI for Science、大模型技术、跨模态任务等方向形成创新能力。平台将持续面向 训练—推理—服务—治理—应用 这一全链条深度演进,构建开放、可扩展、可信、安全的校级 AI 计算支撑体系,为智慧校园建设与面向未来的科研创新贡献坚实算力底座。