Linux系统上安装slurm来监控网络带宽和控制节点

2016-03-31 15:17 11 1 收藏

关注图老师电脑网络栏目可以让大家能更好的了解电脑,知道有关于电脑的更多有趣教程,今天给大家分享Linux系统上安装slurm来监控网络带宽和控制节点教程,希望对大家能有一点小小的帮助。

【 tulaoshi.com - 服务器 】

Linux系统上安装slurm来监控网络带宽和控制节点

   SLURM 是一个类似 Sun Grid Engine (SGE) 的开源分布式资源管理软件,用于超级计算机和大型计算节点集群,可高度伸缩和容错。SUN 被卖给 Oracle 后,好用的 SGE 变成 Oracle Grid Engine 并且从 6.2u6 版本开始成为商业软件了(可以免费使用90天),所以我们不得不另寻其他的开源替代方案,SLURM 是上次在德班高性能会议的时候一位陌生人介绍的,听上去不错。

  SLURM 通过一对冗余集群控制节点(冗余是可选的)来管理集群计算节点,是由一个名为 slurmctld 的管理守护程序实现的,slurmctld 提供了对计算资源的监视、分配和管理,并将进入的作业序列映射和分发到各个计算节点上。每个计算节点也有一个守护程序 slurmd,slurmd 管理在其上运行的节点,监视节点上运行的任务、接受来自控制节点的请求和工作、将工作映射到节点内部等等。图示如下:

20151029115037919.jpg (580×297)

  监控带宽

  复制代码

(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)

  代码如下:

  $ apt-get install slurm

  它会用字符来显示文本图形。

  例如:

  复制代码

(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)

  代码如下:

  $ slurm -i

  $ slurm -i eth1

20151029115120152.png (835×422)

  选项

  按 l 显示 lx/tx 指示灯.

  按 c 切换到经典模式.

  按 r 刷新屏幕.

  按 q 退出.

  控制节点

  在控制节点和计算结点分别安装 slurm 包,这个包里面既含有控制节点需要的 slurmctld 也含有计算结点需要的 slurmd:

  复制代码

(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)

  代码如下:

  # apt-get install slurm-llnl

  控制节点和计算结点之间需要通信,通信就需要认证,slurm 支持两种认证方式:Brent Chun’s 的 authd 和 LLNL 的 MUNGE,MUNGE 是专为高性能集群计算打造的,这里我们选用 MUNGE,生成 key 后启动 munge 认证服务:

  复制代码

(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)

  代码如下:

  # /usr/sbin/create-munge-key

  Generating a pseudo-random key using /dev/urandom completed.

  # /etc/init.d/munge start

  使用 SLURM Version 2.3 Configuration Tool 在线配置工具生成配置文件,然后把配置文件拷贝控制节点以及各个计算结点的 /etc/slurm-llnl/slurm.conf(是的,控制节点和计算结点使用同一个配置文件)。

  有了配置文件和启动了 munge 服务后就可以在控制节点启动 slurmctld 服务了:

  复制代码

(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)

  代码如下:

  # /etc/init.d/slurm-llnl start

  * Starting slurm central management daemon slurmctld [ OK ]

  把控制节点生成的 munge.key 拷贝到各个计算结点:

  复制代码

(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)

  代码如下:

  # scp /etc/munge/munge.key ubuntu@slurm01:/etc/munge/

  登陆计算节点后启动 munge 服务(注意需要改变 munge.key 的 owner 和 group 为 munge,否则会启动失败)和 slurmd 服务:

  复制代码

(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)

  代码如下:

  # ssh ubuntu@slurm01

  # chown munge:munge munge.key

  # /etc/init.d/munge start

  * Starting MUNGE munged [ OK ]

  # slurmd

  在控制节点上(slurm00)测试一下是否顺利连接到计算结点(slurm01),并且简单运行一个程序 /bin/hostname 看看效果吧:

  复制代码

(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)(本文来源于图老师网站,更多请访问https://www.tulaoshi.com/fuwuqi/)

  代码如下:

  # sinfo

  PARTITION AVAIL TIMELIMIT NODES STATE NODELIST

  debug* up infinite 1 idle slurm01

  # srun -N1 /bin/hostname

  slurm01

来源:https://www.tulaoshi.com/n/20160331/2050326.html

延伸阅读
网络人远程控制软件隐蔽监控设置 网络人是国内首款可穿透内网、完全免费、并采用U盾安全加密的远程控制软件,网络人可实现远程开机、关机,远程控制电脑,快速上传下载、修改文件,语音文字聊天,远程开启摄像头等功能。本文主要介绍网络人远程控制软件隐蔽监控如何设置。 1 设置常规设置启动会员登录、服务方式自启动。 2 ...
标签: 电脑入门
作为Linux系统监控工具,Collectl是款值得推荐的软件,使用Collectl能够及时掌握系统的运行状况,还能像iotop命令一样使用collectl进行智能统计,下面图老师小编就给大家介绍下Collectl的安装及使用。 系统资源监控 Collectl作为一个轻量级的监控工具,在同类工具中是功能最全的。用户可监测不同的复杂系统矩阵值,并可保留数据以做之后...
标签: 服务器
常用的linux系统监控命令整理   找到最耗CPU的java线程ps命令 命令:ps -mp pid -o THREAD,tid,time 或者 ps -Lfp pid 结果展示: 这个命令的作用,主要是可以获取到对应一个进程下的线程的一些信息。 比如你想分析一下一个java进程的一些运行瓶颈点,可以通过该命令找到所有当前Thread的占用CPU的时间,也就是这...
标签: 电脑入门
Linux系统的命令有很多,今天图老师小编主要大家介绍下Linux系统监控命令,如果你对监控命令感兴趣或正在学习相关知识的话,不妨来了解下。 找到最耗CPU的java线程 ps命令 命令:ps -mp pid -o THREAD,tid,time 或者 ps -Lfp pid 结果展示: 这个命令的作用,主要是可以获取到对应一个进程下的线程的一些信息。 比如你想分析一下...
标签: Java JAVA基础
一、软件下载 JDK 1.2.2 http://www.blackdown.org/java-linux.html http://www.mirror.ac.uk/sites/ftp.blackdown.org/java-linux/ http://www.mirror.ac.uk/sites/ftp.blackdown.org/java-linux/JDK-1.2.2/i386/rc4/jdk-1.2.2-RC4-linux-i386-glibc-2.1.2.tar.bz2  Tomcat 3.1 http://jakarta.apa...

经验教程

62

收藏

83
微博分享 QQ分享 QQ空间 手机页面 收藏网站 回到头部