笔者曾经是一个苦逼的HPC集群管理员,上百个节点的集群安装、配置,机器多了,什么鸟事都遇到,加班加点想起来就一把辛酸泪。直到我用上 E-HPC,一键创建集群,10分钟无人值守自动安装完成,从此生活惬意多了。需要扩容机器也只用点点鼠标,泡杯枸杞的功夫,新节点已经安装好并且自动加入调度系统了,齐活。
最近 E-HPC 新出了一个批量执行命令的功能,我试了下发现很管用,可以省我不少时间。作为集群管理员,平时我也并不轻闲,运维一个HPC集群杂七杂八的事情挺多的,一旦集群规模上去了,看起来简单的任务,真做起来也不简单。打比方说,现在需要在所有计算节点上,安装上telnet软件。
如果一个年轻的管理员来干,说不定想要 ssh 登录到每一台机器上,然后复制粘贴安装命令。集群规模达到几十台节点,估计就得放弃另想办法了。不过作为一个老练的集群管理员,这点事还难不倒我,以前自然是用 pssh 搞定:
- 生成一份计算节点列表(别忘了最近扩容过,最好经常更新这个表)
-
运行 pssh 安装软件,加上输出回显并且重定向,这样如果出错可以看日志
pssh -h hostfile -i -A yum install -y telnet | tee install.log
- 往回翻日志,或者批量运行另一条检查结果的命令
如果使用 E-HPC 的批量执行命令功能,这个工作就很容易了:E-HPC 控制台上,进入“执行命令”界面,选择“批量执行”功能,勾上计算节点,输入每台节点上要执行的命令,回车,搞定。
“历史命令”页里,每台节点上执行的日志一目了然,不会混在一起:
整个过程没发觉有什么需要特别操心的,节点数量没有限制,超时时间可以自己设置。
不论是不熟悉系统运维的年轻管理员,还是像笔者一样老练的管理员,都试试 E-HPC 吧,有限的生命,不用再挣扎在繁杂的命令行和机械的操作中了。
弹性高性能计算(E-HPC)是面向教育科研,企事业单位和个人的一站式公有云HPC服务。E-HPC提供批量执行命令(Clusterun)功能,让用户在web终端上就可以管理大规模HPC集群,完成日常运维工作。
除了安装软件,您还可以用它修改系统配置、查杀僵尸进程、管理在线用户等等,无限制定制您需要的功能。以前需要登录机器完成的工作,现在都可以在 E-HPC 控制台上,一个命令完成,欢迎试用 https://ehpc.console.aliyun.com 。