luyu (@lu_yu1) 在 求助slurm部署解答,感谢佬们 中发帖
课题组有几台服务器,3090和4090的,现在是用户们分散在各个服务器上,但就会出现hand hanse,涝的涝死的情况,竞争压力大的服务器都急得大家,告到老板那里去了。
圣旨下来让我解决一下,可我一个小小研究生哪会呀,求助各位佬们,目前有三个四卡3090,一个八卡4090,怎么部署一下slurm,让大家都可以排队运行,并且可以debug呢?