SGE常用命令

从搭建集群和使用集群…
进过不少坑……
对常用命令做一下笔记…

常用查看命令

  • 查看主机情况qhost -q

    BIP 正常
    E 错误状态
    a 警告(a generic indicator of badness)
    u 无法连接
    d 被管理员设置无法使用

    可以通过下列方法对某个队列上的的节点进行操作

    • 清除错误 qmod -c all.q@cca-train02
    • 设置节点不可用 qmod -d all.q@cca-train02
    • 设置节点可用 qmod -e all.q@cca-train02
    • 重启节点,详细操作见后
  • 查看进程运行情况qstat -f

    状态码 详细信息
    r 正在执行
    t 把节点跑死了,若长期处于 t 状态请杀掉该进程,占用大量资源
    s 被暂时挂起,往往是由于优先级更高的job抢占了资源
    dr/dt 节点挂了之后,删除任务会出现这个状态,只有节点重启任务才会消失
    qw 正在等待,一旦有计算资源会马上执行
    Eqw job的提交产生错误
    hqw 该job依赖于其它正在执行的job,待前面的job执行完毕后再开始执行

    qstat -f 结果中的states

    (a)larm, (u)nreachable, (E)rror state

    (au) whenever: - A node is down - A node is hung/frozen - Network problems

    遇到错误状态怎么办?

    • 查看某一个任务的详细情况,找到错误

      qstat -j <job-id>

      qalter -w v job-id

    • 将某个队列从错误状态转变回正常状态

      qmod -c all.q

    • 遇到dr/dt状态请依次尝试下方的解决方法

      参考网址

      qdel -j <job-id>

      qdel -f <job-id>

      sudo qdel -f <job-id>

    • 重启

      [centos]:
      cd $SGE_ROOT/default/common/
      sudo ./sgemaster start
      sudo ./sgeexecd start
      
      [linux]:
      sudo /etc/init.d/gridengine-exec stop
      
    • 问题没有解决请百度或者谷歌

  • 查看某一个任务的情况

    qstat -j <job-id>

  • 查看所有用户的任务

    qstat -u '*'

  • 按照状态对job进行查看

    • 检查正在执行的job

      qstat -s r

    • 检查被挂起的job

      qstat -s p

P.S. 感谢 @Leon晋 师兄滴指正 ^ ^~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章