集羣上作業提交系統的使用與簡介
LSF作業提交系統
bsub:作業提交
通用方法
#BSUB -n num
#BSUB -l nodes=1:ppn=1
#BSUB -q queue
#BSUB -o path
#BSUB -e errorPath
#BSUB -J jobName
#BSU -I
-n:指定num爲計算核心數
-q:指定queue隊列
-o:將標準輸出重定向到path
-e:將標準錯誤信息重定向到errorPath
-J:指定jobName爲作業名稱
-I:交互模式
bkill:刪除作業
刪除作業12345:
bkill 12345
bjobs:查看作業
queues:查看隊列信息
PBS作業提交系統
PBS是一個作業調度系統,常用於分佈式高性能計算集羣的作業管理。
qsub:作業提交
通用方法
在集羣上使用qsub run.pbs提交作業,run.pbs一般包括這些信息:
#PBS -N jobName
#PBS -l nodes=1:ppn=1
#PBS -q queue
#PBS -o path
#PBS -e errorPath
#PBS -l walltime=800:00:00
cd ./home/myJob
./job
-N:指定jobName爲作業名
-l:用來定義資源列表,nodes=1指定該作業運行的節點數量爲1,ppn=1指定每個節點需要1個cpu。walltime指定作業運行時間,800:00:00代表800個小時。
-q:指定queue隊列
-o:將標準輸出重定向到path
-e:將標準錯誤信息重定向到errorPath
最後兩行是進入作業目錄並執行該作業
qdel:刪除作業
刪除作業12345:
qdel 12345
強制刪除作業12345:
qdel -p 12345
15s後刪除作業12345:
qdel -W 15 12345
qstat:顯示作業狀態
查看所有作業:
qstat -q
查看作業12345:
qstat -f 12345
pbsnodes:顯示集羣中所有節點信息
查看閒置節點:
pbsnodes -l free