从搭建集群和使用集群…
进过不少坑……
对常用命令做一下笔记…
常用查看命令
-
查看主机情况
qhost -q
BIP 正常
E 错误状态
a 警告(a generic indicator of badness)
u 无法连接
d 被管理员设置无法使用可以通过下列方法对某个队列上的的节点进行操作
- 清除错误
qmod -c all.q@cca-train02
- 设置节点不可用
qmod -d all.q@cca-train02
- 设置节点可用
qmod -e all.q@cca-train02
- 重启节点,详细操作见后
- 清除错误
-
查看进程运行情况
qstat -f
状态码 详细信息 r 正在执行 t 把节点跑死了,若长期处于 t 状态请杀掉该进程,占用大量资源 s 被暂时挂起,往往是由于优先级更高的job抢占了资源 dr/dt 节点挂了之后,删除任务会出现这个状态,只有节点重启任务才会消失 qw 正在等待,一旦有计算资源会马上执行 Eqw job的提交产生错误 hqw 该job依赖于其它正在执行的job,待前面的job执行完毕后再开始执行 qstat -f 结果中的states
(a)larm, (u)nreachable, (E)rror state
(au) whenever: - A node is down - A node is hung/frozen - Network problems
遇到错误状态怎么办?
-
查看某一个任务的详细情况,找到错误
qstat -j <job-id>
qalter -w v job-id
-
将某个队列从错误状态转变回正常状态
qmod -c all.q
-
遇到dr/dt状态请依次尝试下方的解决方法
qdel -j <job-id>
qdel -f <job-id>
sudo qdel -f <job-id>
-
重启
[centos]: cd $SGE_ROOT/default/common/ sudo ./sgemaster start sudo ./sgeexecd start [linux]: sudo /etc/init.d/gridengine-exec stop
-
-
查看某一个任务的情况
qstat -j <job-id>
-
查看所有用户的任务
qstat -u '*'
-
按照状态对job进行查看
-
检查正在执行的job
qstat -s r
-
检查被挂起的job
qstat -s p
-
P.S. 感谢 @Leon晋 师兄滴指正 ^ ^~