联想GPU服务器增加NVIDIA TESLA C2050 GPU卡并调整队列设置

发布者:系统管理员发布时间:2012-02-15浏览次数:256

联想深腾7000G GPU服务器系统上的计算用户请注意控制对IO要求太大的作业的同时运行作业数,以免影响其它用户的正常使用.
在原服务器node29~node44节点上各增加一块NVIDIA TESLA C2050 GPU卡,对应的使用队列为c2050,原有的cuda4队列取消.

C2050编译环境:
安装目录:/opt/cuda-4.1.28/cuda,请设置如下环境变量(如在自己的~/.bashrc文件中设置)使用:
export PATH=/opt/cuda-4.1.28/cuda/bin:$PATH 
export LD_LIBRARY_PATH=/opt/cuda-4.1.28/cuda/lib64:$LD_LIBRARY_PATH
SDK目录在/opt/NVIDIA_GPU_Computing_SDK,请复制到自己目录下使用。

当前GPU集群的队列设置为:
normal 普通CPU作业队列,单节点内运行
long  普通CPU作业队列,多节点间运行
c2050 每个节点对应1块 NVIDIA TESLA C2050 GPU卡
c1060 每个节点对应2块 NVIDIA TESLA C1060 GPU卡
gtx295 每个节点对应2块 NVIDIA GeForce GTX295 GPU卡

如只是CPU作业,请使用normal和long队列,以免影响GPU作业的运行。
如果是GPU作业,请务必选择对应的GPU队列,比如c2050、c1060、gtx295,以保证作业分配到对应GPU节点。