作为测试,在VMware上安装centos7,然后在centos7上安装lsf 10.2 社区版(其实是10.2.0.6版本),社区版和正式版的安装基本一致,不过不需要license。
redhat上安装步骤基本相同。
下面是具体的安装步骤:
1.1 设置hostname及IP
通过修改/etc/hostname设置机器名,机器名不要太长,也不要带特殊字符。
[root@master ~]# cat /etc/hostname
master
最好设置静态IP
编辑/etc/hosts解析
[root@master ~]# cat /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.253.11 master
确认SSH服务开启
service sshd start
ssh-keygen命令产生公钥和私钥。
把本机上的公钥写入本机,所以本机登陆本机不需要密码。
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
scp ~/.ssh/authorized_keys root@node01:~/.ssh/
1.3 设置共享存储
如果有多台机器,需要在所有机器上启动NFS服务,设置好共享目录,lsf需要安装在共享目录,以保证所有的机器都能够读取同一份设置。
1.4 关闭防火墙
采用命令systemctl status firewalld获取防火墙状态。如下绿色部分字体可知,防火墙仍然处于running状态。
2. 安装
2.1 安装包下载
从如下地址可以下载到10.2版本的lsfsce安装包。
https://www-01.ibm.com/marketing/iwm/mrs/DownloadList?source=swerpzsw-lsf-3&lang=en_US#dh
2.2 安装包解压
拷贝到linux中的工具路径下,解压缩。(如下操作,如无说明均采用root账号)
tar xf lsfsce10.2.0.6-x86_64.tar.gz
进入解压路径下,lsf为lsf sce版的安装文件目录。
进入lsf目录下,继续解压缩文件lsf10.1_lsfinstall_linux_x86_64.tar.Z。(glibc文件无需处理)
进入解压后的安装包路径下。
2.3 安装
其中install.config为安装配置文件,我们将其备份一下(到install.config.orig),然后更新其中的设置。
我们的配置如下。
备份install.config
install.config.bak
[root@master lsf10.1_lsfinstall]# cat install.config | grep -v "#"
LSF_TOP="/usr/share/lsf"
LSF_ADMINS="lsfadmin"
LSF_CLUSTER_NAME="cluster1"
LSF_MASTER_LIST="master"
LSF_TARDIR="/usr/local/lsfsce10.2.0.6-x86_64/lsf"
CONFIGURATION_TEMPLATE="HIGH_THROUGHPUT"
LSF_TOP : 设置安装路径。
LSF_ADMINS : 设置管理员账号,当前设置为我自己的账号,但是企业中建议创建一个公用的管理员账号lsfadmin。
LSF_CLUSTER_NAME : 集群名称。
LSF_MASTER_LIST :master机器列表,如果有多台机器,建议至少设置两台master,作为冗余备份。
LSF_TARDIR : 安装文件解压缩路径。
CONFIGURATION_TEMPLATE :配置模式,如果是IC应用场景,建议设置为HIGH_THROUGHPUT高性能模式。
LSF_ADD_SERVERS :添加计算机节点机器,也可以安装后配置。
LSF_ADD_CLIENTS :添加客户机(投递机)节点,也可以安装后配置。
执行./lsfinstall -f install.config来安装lsf。
此处选1,继续。
2.4 配置
到安装目录的conf路径下,将如下信息插入到lsf.conf文件中。
LSF_RSH=“ssh”
将conf路径下的cshrc.lsf和profile.lsf两个文件拷贝到/etc/profile.d/下面。(可以开机自动加载lsf环境)
cp cshrc.lsf profile.lsf /etc/profile.d/
手工载入环境。如果是csh/tcsh则source cshrc.lsf,否则source profile.lsf。
在所有机器上,用root账号执行如下命令以启动守护进程。
./hostsetup --top="/usr/share/lsf" --boot="y"
登陆master节点,用root账号执行lsfstartup以启动lsf集群。(请注意,lsf社区版不允许机器cpu核数超过两个核,否则lsfstartup无法启动)
启动
lsfstartup
执行lsid确定lsf服务启动无误。
2.5 测试
切换到普通账号测试一下。
1号任务,睡一会。
bsub -n 2 "sleep 3600"
从queue和hosts上可以看到这两个slots占用,也可以查看机器的静态资源及动态负载状况。
lsf安装配置成功。