Slurm代表(用于资源管理的简单Linux实用程序)是一个伟大、强大、模块化和开源的工作负载管理器和作业调度程序,专为任何规模的Linux 集群 构建。 Slurm 是容错且高度可插拔的集群管理和作业调度系统,具有许多可供您使用的可选插件。它在世界各地的几台强大的计算机和数据中心上提供工作负载管理。
Slurm的主要功能
Slurm 具有三个主要功能,首先,它将对资源的独占和/或非独占访问权限分配给想要在给定时间段内执行某些工作的用户。接下来,Slurm 利用一个框架来帮助启动、执行和监视集群中一组已分配主机上的工作,其最终功能是通过管理待处理工作队列来控制资源使用。
Slurm独有的功能
你可以找到很多工作负载管理器,但 Slurm 有许多独特的功能,将它与其他工作负载管理器区分开来,这些功能包括:
Slurm架构
Slurm系统基于一个中央管理器,slurmctld监控不同的资源和工作,它可能包括一个备份管理器负责用于在发生任何故障时保护系统状态。 集群上的每个主机都有一个slurmd守护进程,它与远程shell相比,接收工作,执行它,返回状态,然后等待更多工作执行,该守护进程还在系统设置层次结构中启用容错通信。还有一个可选的slurmdbd(slurm database daemon)用于在单个数据库中记录来自多个Slurm管理的集群的会计信息。你可以从here阅读完整的架构
下图显示了Slurm系统的不同组件
Slurm系统组件
显示不同Slurm系统实体的图像
Slurm系统实体
阅读客户testimonials关于Slurm。 如果您正在使用任何规模的 Linux 集群,您可能想检查并试用 Slurm 集群管理和作业调度系统。有关任何其他信息,您可以在下面的评论部分留下您对 Slurm 的想法。