首页 相关文章 Linux系统上安装slurm来监控网络带宽和控制节点

Linux系统上安装slurm来监控网络带宽和控制节点

Linux系统上安装slurm来监控网络带宽和控制节点

  SLURM 是一个类似 Sun Grid Engine (SGE) 的开源分布式资源管理软件,用于超级计算机和大型计算节点集群,可高度伸缩和容错。SUN 被卖给 Oracle 后,好用的 SGE 变成 Oracle Grid Engine 并且从 6.2u6 版本开始成为商业软件了(可以免费使用90天),所以我们不得不另寻其他的开源替代方案,SLURM 是上次在德班高性能会议的时候一位陌生人介绍的,听上去不错。

  SLURM 通过一对冗余集群控制节点(冗余是可选的)来管理集群计算节点,是由一个名为 slurmctld 的管理守护程序实现的,slurmctld 提供了对计算资源的监视、分配和管理,并将进入的作业序列映射和分发到各个计算节点上。每个计算节点也有一个守护程序 slurmd,slurmd 管理在其上运行的节点,监视节点上运行的任务、接受来自控制节点的请求和工作、将工作映射到节点内部等等。图示如下:

20151029115037919.jpg (580×297)[ 查看全文 ]

2016-03-31 标签:

Linux系统上安装slurm来监控网络带宽和控制节点的相关文章

手机页面
收藏网站 回到头部