- 假设提交作业命令为bsub -q normal -n 24 -o %J.log -e %J.er mpijob ./example_job,提交后系统提示作业已提交到队列中
- Job <123456> is submitted to queue . 提交作业时请加上-o %J.log和-e %J.err参数。
- 当作业异常退出后,在作业提交的目录下,可根据这两个标准输出123456.log和错误输出123456.err文件,查看异常退出的提示说明信息。
- 使用"bacct -l 123456"的命令可查看作业历史纪录。
- 作业异常退出的常见原因有:
- libxxxx.so.x函数库文件未找到 程序执行example_job需要的函数库文件缺失。请使用命令ldd ./example_job查看缺失的文件,然后使用命令find / -name "libxxx.so.x" -ls命令查看库文件所在的路径,并在~/.bashrc文件中设置此路径。若系统上没有缺失的库文件,可向管理员反馈说明。
- 可执行文件未找到:(...command not found) 作业计算需要的可执行文件example_job没有找到。在提交作业的目录下,提交作业时使用文件路径为./example_job或使用其存放的绝对路径。
- 请指定一个可执行文件: 作业提交时,指定的计算程序example_job没有可执行权限。请使用命令chmod u+x example_job为指定程序添加可执行权限。
- 磁盘空间不够: 默认情况下,用户个人可使用的磁盘空间为50GB,用户文件占用空间达到此上限时,帐号下无法新建文件,会导致计算的程序异常退出。请及时备份下载各自重要文件,并清理帐号下的陈旧或无用文件。确有更大磁盘空间的需求时,可向管理员反馈说明。
- 内存使用超出:(out of memory) 作业运行时需求的内存超出了计算节点配置的内存,此种情况作业输出文件中一般会有提示。可选择调整输入文件参数减小计算规模或者增大并行计算的CPU核进程数规模或者使用大内存的专有队列计算测试。
- 程序段错误 此种情况作业输出文件中会有提示,一般为用户的计算程序文件问题,请检查程序后再测试计算。
- 作业无任何输出的异常退出 检查123456.log和123456.err文件,查看其中的提示信息。 检查作业文件存放的目录是否有空格,请重新命名文件目录,将空格去掉。 检查作业是否为UNKWON状态,此种情况一般为节点故障,可向管理员反说明。 检查个人帐号下文件占用空闲是否达到了磁盘限额的上限,注意及时清理陈旧的文件。