centos下运行Gemini(单机&分布式)
单机运行Gemini就直接从GitHub上下载make一下就行,但是速度非常慢;
分布式环境要先装munge,再装slurm,才能执行下面的命令行(srun)
在node16和node18上运行Gemini:
以pagerank算法为例,参数分别为:
节点数 算法所在路径 数据集所在路径 数据集节点数 迭代次数
只用在控制节点上运行以下命令行,计算节点之前通过slurm的配置在运行时自动加入运行。
srun -N2 ./toolkits/pagerank ./../data_sbb/amazon-2008.bin 735322 55
可能出现的报错
1)如果出现以下情况:
srun: job 151 queued and waiting for resources
可以尝试等待知道出现“分配资源”字样
srun: job 151 queued and waiting for resources
srun: job 151 has been allocated resources
或直接杀掉进程再重新执行srun:
squeue
scancel 151
2)如果出现以下报错:
srun: Required node not available (down, drained or reserved)
说明有的节点down掉了,按下述方式恢复:
(reason可以随便写,但是一定要写)
scontrol: update NodeName=node18 State=DOWN Reason="undraining"
scontrol: update NodeName=node18 State=RESUME
scontrol: show node node18
scontrol: exit
sinfo
现在仍未解决的问题:
1)有些节点莫名down掉,需要频繁手动resume很麻烦;
2)已经格式化掉的节点,slurm.conf和hosts里面也注释掉了,但是sinfo还是会显示