slurm任務管理相關命令

最近領導安排做slurm任務管理相關方面的研究,在對已提交任務做"停止"、"恢復"、"取消"等操作時,查閱度娘並沒有找到相關的介紹。通過翻閱谷歌纔有了些收穫,特總結記錄以便以後使用。

scontrol命令提供了絕大多數對任務的控制,基本上通過度娘都能夠查到,如果需要更詳細和完善的介紹,可以查詢官網:               https://slurm.schedmd.com/scontrol.html

在對任務做"停止"和"恢復"時就能夠用到scontrol:

$scontrol suspend job_id 可以暫停正在運行的任務,並且停止在當前執行的step上,以便稍後進行恢復。

相對應的,可以通過以下命令來恢復上述暫停的任務

$scontrol resume job_id

除了以上"停止"和"恢復"任務外,還有一種不可逆的取消任務:

$scancel job_id

對於需要同時取消多個任務的,可以如下操作:

$scancel job_id1,job_id2,job_id3

還有一種比較實用的命令,在常見的文章中並沒有介紹,這就是sstat,通過此命令可以很輕鬆的把任務相關的信息獲取到,包括CPU使用率、節點信息、任務信息等。

$sstat --jobs=job_id

以上就是使用slurm做任務管理時常用的幾個命令。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章