Slurm作业调度系统¶ 简介 基本概念 三种模式区别 基本用户命令 基本术语 常用参考 显示队列、节点信息:sinfo 主要输出项 主要参数 查看队列中的作业信息:squeue 主要输出项 主要参数 查看详细队列信息:scontrol show partition 主要输出项 查看详细节点信息:scontrol show node 主要输出项 查看详细作业信息:scontrol show job 主要输出项 查看服务质量(QoS) 查看作业屏幕输出:speek 提交作业命令共同说明 主要参数 IO重定向 交互式提交并行作业:srun 主要输入环境变量 主要输出环境变量 多程序运行配置 常见例子 批处理方式提交作业:sbatch 主要输入环境变量 主要输出环境变量 串行作业提交 OpenMP共享内存并行作业提交 MPI并行作业提交 GPU作业提交 作业获取的节点名及对应CPU核数解析 分配式提交作业:salloc 作业获取的节点名及对应CPU核数解析 主要选项 主要输入环境变量 主要输出环境变量 例子 将文件同步到各节点:sbcast 主要参数 主要环境变量 例子 吸附到作业步:sattach 主要参数 主要输入环境变量 例子 查看记账信息:sacct 其它常用作业管理命令 终止作业:scancel job_id 挂起排队中尚未运行的作业:scontrol hold job_list 继续排队被挂起的尚未运行作业:scontrol release job_list 重新运行作业:scontrol requeue job_list 重新挂起作业:scontrol requeuehold job_list 最优先等待运行作业:scontrol top job_id 等待某个作业运行完:scontrol wait_job job_id 更新作业信息:scontrol update SPECIFICATION