從搭建集羣和使用集羣…
進過不少坑……
對常用命令做一下筆記…
常用查看命令
-
查看主機情況
qhost -q
BIP 正常
E 錯誤狀態
a 警告(a generic indicator of badness)
u 無法連接
d 被管理員設置無法使用可以通過下列方法對某個隊列上的的節點進行操作
- 清除錯誤
qmod -c all.q@cca-train02
- 設置節點不可用
qmod -d all.q@cca-train02
- 設置節點可用
qmod -e all.q@cca-train02
- 重啓節點,詳細操作見後
- 清除錯誤
-
查看進程運行情況
qstat -f
狀態碼 詳細信息 r 正在執行 t 把節點跑死了,若長期處於 t 狀態請殺掉該進程,佔用大量資源 s 被暫時掛起,往往是由於優先級更高的job搶佔了資源 dr/dt 節點掛了之後,刪除任務會出現這個狀態,只有節點重啓任務纔會消失 qw 正在等待,一旦有計算資源會馬上執行 Eqw job的提交產生錯誤 hqw 該job依賴於其它正在執行的job,待前面的job執行完畢後再開始執行 qstat -f 結果中的states
(a)larm, (u)nreachable, (E)rror state
(au) whenever: - A node is down - A node is hung/frozen - Network problems
遇到錯誤狀態怎麼辦?
-
查看某一個任務的詳細情況,找到錯誤
qstat -j <job-id>
qalter -w v job-id
-
將某個隊列從錯誤狀態轉變回正常狀態
qmod -c all.q
-
遇到dr/dt狀態請依次嘗試下方的解決方法
qdel -j <job-id>
qdel -f <job-id>
sudo qdel -f <job-id>
-
重啓
[centos]: cd $SGE_ROOT/default/common/ sudo ./sgemaster start sudo ./sgeexecd start [linux]: sudo /etc/init.d/gridengine-exec stop
-
-
查看某一個任務的情況
qstat -j <job-id>
-
查看所有用戶的任務
qstat -u '*'
-
按照狀態對job進行查看
-
檢查正在執行的job
qstat -s r
-
檢查被掛起的job
qstat -s p
-
P.S. 感謝 @Leon晉 師兄滴指正 ^ ^~