centos下运行Gemini(单机&分布式)

centos下运行Gemini(单机&分布式)

单机运行Gemini就直接从GitHub上下载make一下就行,但是速度非常慢;

分布式环境要先装munge,再装slurm,才能执行下面的命令行(srun)

在node16和node18上运行Gemini:

以pagerank算法为例,参数分别为:
节点数 算法所在路径 数据集所在路径 数据集节点数 迭代次数
只用在控制节点上运行以下命令行,计算节点之前通过slurm的配置在运行时自动加入运行。

 srun -N2 ./toolkits/pagerank ./../data_sbb/amazon-2008.bin 735322 55

可能出现的报错

1)如果出现以下情况:

srun: job 151 queued and waiting for resources

可以尝试等待知道出现“分配资源”字样

srun: job 151 queued and waiting for resources
srun: job 151 has been allocated resources

或直接杀掉进程再重新执行srun:

squeue
scancel 151

2)如果出现以下报错:

srun: Required node not available (down, drained or reserved)

说明有的节点down掉了,按下述方式恢复:
(reason可以随便写,但是一定要写)

scontrol: update NodeName=node18 State=DOWN Reason="undraining"
scontrol: update NodeName=node18 State=RESUME
scontrol: show node node18
scontrol: exit
sinfo

现在仍未解决的问题:
1)有些节点莫名down掉,需要频繁手动resume很麻烦;
2)已经格式化掉的节点,slurm.conf和hosts里面也注释掉了,但是sinfo还是会显示

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章