SGE常用命令

從搭建集羣和使用集羣…
進過不少坑……
對常用命令做一下筆記…

常用查看命令

  • 查看主機情況qhost -q

    BIP 正常
    E 錯誤狀態
    a 警告(a generic indicator of badness)
    u 無法連接
    d 被管理員設置無法使用

    可以通過下列方法對某個隊列上的的節點進行操作

    • 清除錯誤 qmod -c all.q@cca-train02
    • 設置節點不可用 qmod -d all.q@cca-train02
    • 設置節點可用 qmod -e all.q@cca-train02
    • 重啓節點,詳細操作見後
  • 查看進程運行情況qstat -f

    狀態碼 詳細信息
    r 正在執行
    t 把節點跑死了,若長期處於 t 狀態請殺掉該進程,佔用大量資源
    s 被暫時掛起,往往是由於優先級更高的job搶佔了資源
    dr/dt 節點掛了之後,刪除任務會出現這個狀態,只有節點重啓任務纔會消失
    qw 正在等待,一旦有計算資源會馬上執行
    Eqw job的提交產生錯誤
    hqw 該job依賴於其它正在執行的job,待前面的job執行完畢後再開始執行

    qstat -f 結果中的states

    (a)larm, (u)nreachable, (E)rror state

    (au) whenever: - A node is down - A node is hung/frozen - Network problems

    遇到錯誤狀態怎麼辦?

    • 查看某一個任務的詳細情況,找到錯誤

      qstat -j <job-id>

      qalter -w v job-id

    • 將某個隊列從錯誤狀態轉變回正常狀態

      qmod -c all.q

    • 遇到dr/dt狀態請依次嘗試下方的解決方法

      參考網址

      qdel -j <job-id>

      qdel -f <job-id>

      sudo qdel -f <job-id>

    • 重啓

      [centos]:
      cd $SGE_ROOT/default/common/
      sudo ./sgemaster start
      sudo ./sgeexecd start
      
      [linux]:
      sudo /etc/init.d/gridengine-exec stop
      
    • 問題沒有解決請百度或者谷歌

  • 查看某一個任務的情況

    qstat -j <job-id>

  • 查看所有用戶的任務

    qstat -u '*'

  • 按照狀態對job進行查看

    • 檢查正在執行的job

      qstat -s r

    • 檢查被掛起的job

      qstat -s p

P.S. 感謝 @Leon晉 師兄滴指正 ^ ^~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章