最近領導安排做slurm任務管理相關方面的研究,在對已提交任務做"停止"、"恢復"、"取消"等操作時,查閱度娘並沒有找到相關的介紹。通過翻閱谷歌纔有了些收穫,特總結記錄以便以後使用。
scontrol命令提供了絕大多數對任務的控制,基本上通過度娘都能夠查到,如果需要更詳細和完善的介紹,可以查詢官網: https://slurm.schedmd.com/scontrol.html
在對任務做"停止"和"恢復"時就能夠用到scontrol:
$scontrol suspend job_id 可以暫停正在運行的任務,並且停止在當前執行的step上,以便稍後進行恢復。
相對應的,可以通過以下命令來恢復上述暫停的任務
$scontrol resume job_id
除了以上"停止"和"恢復"任務外,還有一種不可逆的取消任務:
$scancel job_id
對於需要同時取消多個任務的,可以如下操作:
$scancel job_id1,job_id2,job_id3
還有一種比較實用的命令,在常見的文章中並沒有介紹,這就是sstat,通過此命令可以很輕鬆的把任務相關的信息獲取到,包括CPU使用率、節點信息、任務信息等。
$sstat --jobs=job_id
以上就是使用slurm做任務管理時常用的幾個命令。