centos下運行Gemini(單機&分佈式)

centos下運行Gemini(單機&分佈式)

單機運行Gemini就直接從GitHub上下載make一下就行,但是速度非常慢;

分佈式環境要先裝munge,再裝slurm,才能執行下面的命令行(srun)

在node16和node18上運行Gemini:

以pagerank算法爲例,參數分別爲:
節點數 算法所在路徑 數據集所在路徑 數據集節點數 迭代次數
只用在控制節點上運行以下命令行,計算節點之前通過slurm的配置在運行時自動加入運行。

 srun -N2 ./toolkits/pagerank ./../data_sbb/amazon-2008.bin 735322 55

可能出現的報錯

1)如果出現以下情況:

srun: job 151 queued and waiting for resources

可以嘗試等待知道出現“分配資源”字樣

srun: job 151 queued and waiting for resources
srun: job 151 has been allocated resources

或直接殺掉進程再重新執行srun:

squeue
scancel 151

2)如果出現以下報錯:

srun: Required node not available (down, drained or reserved)

說明有的節點down掉了,按下述方式恢復:
(reason可以隨便寫,但是一定要寫)

scontrol: update NodeName=node18 State=DOWN Reason="undraining"
scontrol: update NodeName=node18 State=RESUME
scontrol: show node node18
scontrol: exit
sinfo

現在仍未解決的問題:
1)有些節點莫名down掉,需要頻繁手動resume很麻煩;
2)已經格式化掉的節點,slurm.conf和hosts裏面也註釋掉了,但是sinfo還是會顯示

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章