集群上作业提交系统LSF和PBS的使用与简介

LSF作业提交系统

bsub:作业提交

通用方法

#BSUB -n num
#BSUB -l nodes=1:ppn=1
#BSUB -q queue
#BSUB -o path
#BSUB -e errorPath
#BSUB -J jobName
#BSU -I 

-n:指定num为计算核心数
-q:指定queue队列
-o:将标准输出重定向到path
-e:将标准错误信息重定向到errorPath
-J:指定jobName为作业名称
-I:交互模式

bkill:删除作业

删除作业12345:
bkill 12345

bjobs:查看作业

queues:查看队列信息

PBS作业提交系统

PBS是一个作业调度系统,常用于分布式高性能计算集群的作业管理。

qsub:作业提交

通用方法

在集群上使用qsub run.pbs提交作业,run.pbs一般包括这些信息:

#PBS -N jobName
#PBS -l nodes=1:ppn=1
#PBS -q queue
#PBS -o path
#PBS -e errorPath
#PBS -l walltime=800:00:00

cd  ./home/myJob
./job

-N:指定jobName为作业名
-l:用来定义资源列表,nodes=1指定该作业运行的节点数量为1,ppn=1指定每个节点需要1个cpu。walltime指定作业运行时间,800:00:00代表800个小时。
-q:指定queue队列
-o:将标准输出重定向到path
-e:将标准错误信息重定向到errorPath
最后两行是进入作业目录并执行该作业

qdel:删除作业

删除作业12345:
qdel 12345

强制删除作业12345:
qdel -p 12345

15s后删除作业12345:
qdel -W 15 12345

qstat:显示作业状态

查看所有作业:
qstat -q
查看作业12345:
qstat -f 12345

pbsnodes:显示集群中所有节点信息

查看闲置节点:
pbsnodes -l free

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章