Slurm作业调度系统¶ 简介 基本概念 三种模式区别 基本用户命令 基本术语 常用参考 显示队列、节点信息:sinfo sinfo主要输出项 sinfo主要参数 查看队列中的作业信息:squeue squeue主要输出项 squeue主要参数 查看详细队列信息:scontrol show partition scontrol show partition主要输出项 查看详细节点信息:scontrol show node scontrol show node主要输出项 查看详细作业信息:scontrol show job scontrol show job主要输出项 查看服务质量(QoS) 查看作业屏幕输出:speek 提交作业命令共同说明 主要参数 IO重定向 交互式提交并行作业:srun 主要输入环境变量 主要输出环境变量 多程序运行配置 常见例子 批处理方式提交作业:sbatch sbatch主要输入环境变量 sbatch主要输出环境变量 串行作业提交 OpenMP共享内存并行作业提交 MPI并行作业提交 GPU作业提交 作业获取的节点名及对应CPU核数解析 分配式提交作业:salloc salloc主要选项 salloc主要输入环境变量 salloc主要输出环境变量 例子 将文件同步到各节点:sbcast sbcast主要参数 sbcast主要环境变量 sbcast例子 吸附到作业步:sattach sattach主要参数 sattach主要输入环境变量 sattach例子 查看记账信息:sacct 其它常用作业管理命令 终止作业:scancel job_id 挂起排队中尚未运行的作业:scontrol hold job_list 继续排队被挂起的尚未运行作业:scontrol release job_list 重新运行作业:scontrol requeue job_list 重新挂起作业:scontrol requeuehold job_list 最优先等待运行作业:scontrol top job_id 等待某个作业运行完:scontrol wait_job job_id 更新作业信息:scontrol update SPECIFICATION