RedHat Cluster
Suite简称RHCS,是一个能够提供高可用性、高可靠性、负载均衡、存储共享且经济廉价的集群工具集合,基于RHCS可以搭建高可用性集群、负载均衡集群、存储集群和高性能集群。本文以基于RHCS搭建高可用集群为例,来简单介绍RHCS实现高可用集群的原理,至于高可用集群的搭建步骤,将会在《基于RHCS的tomcat和mysql服务的HA搭建步骤》一文中进行详细的介绍。
1. 基于RHCS的高可用集群要解决的问题
基于RHCS搭建高可用集群式RHCS的核心功能,当应用程序出现故障,或者系统硬件、网络出现故障时,应用可以通过RHCS提供的高可用**管理组件自动、快速从一个节点切换到另一个节点,节点故障转移功能对客户端来说是透明的,从而保证应用持续、不间断的对外提供服务,这就是RHCS高可用集群实现的功能。
2. RHCS集群的主要组件
2.1 集群构架管理器
提供一个集群的基本功能,使各个节点组成集群在一起工作,具体包含分布式集群管理器(cman)、资源组管理器(rgmanager)、锁管理(dlm)、配置文件管理(ccs)、栅设备(fence)。
(1)CMAN - 分布式集群管理器
CMAN
通过监控其他群集节点的信息来跟踪成员资格,当群集的成员资格发生变化时,群集管理器通知其他基础结构组件,它们再采取合适的行动,可通过系统中的serivce命令进行启/停操作;DLM、CLVM及Fence都依赖于cman分布式群集管理器
(2)rgmanager - 资源组管理器(resource group manager)
用来监控service的状态以及执行指定的故障切换操作,比如下面log,可以看出rgmanger主要执行接管服务前的预操作和服务的启动/停止等工作:
fenced[2839]: fence 192.168.33.141 success
rgmanager[3606]:
Taking over service service:tomcat from down member 192.168.33.141
rgmanager[100268]: [fs] mounting /dev/sdb1 on /tomcat6
rgmanager[100290]: [fs] mount -t ext4 /dev/sdb1
/tomcat6
kernel: EXT4-fs (sdb1): mounted filesystem with ordered
data mode. Opts:
rsyslogd-2177: imuxsock begins to drop messages from pid
2779 due to rate-limiting
rgmanager[100390]: [ip] Adding IPv4
address 192.168.33.201/24 to em1
rgmanager[100471]:
[script] Executing /etc/init.d/tomcat start
rsyslogd-2177:
imuxsock lost 153 messages from pid 2779 due to rate-limiting
rgmanager[3606]: Service service:tomcat started
(3)DLM - 分布式锁管理器
它是RHCS的一个底层基础构件,同时也为集群提供了一个公用的锁运行机制,在RHCS集群系统中,DLM运行在集群的每个节点上,GFS通过锁管理器的锁机制来同步访问文件系统元数据。CLVM通过锁管理器来同步更新数据到LVM卷和卷组。DLM不需要设定锁管理服务器,它采用对等的锁管理方式,大大的提高了处理性能。同时,DLM避免了当单个节点失败需要整体恢复的性能瓶颈,另外,DLM的请求都是本地的,不需要网络请求,因而请求会立即生效。最后,DLM通过分层机制,可以实现多个锁空间的并行锁模式
(4)CSS - 配置文件管理器
Cluster Configuration
System,简称CCS,主要用于集群配置文件管理和配置文件在节点之间的同步。CCS运行在集群的每个节点上,监控每个集群节点上的单一配置文件/etc/cluster/cluster.conf的状态,当这个文件发生任何变化时,都将此变化更新到集群中的每个节点,时刻保持每个节点的配置文件同步。例如,管理员在节点A上更新了集群配置文件,CCS发现A节点的配置文件发生变化后,马上将此变化传播到其它节点上去。rhcs的配置文件是cluster.conf,它是一个xml文件,具体包含集群名称、集群节点信息、集群资源和服务信息、fence设备等。
(5)femce 设备
FENCE设备是RHCS集群中必不可少的一个组成部分,通过FENCE设备可以避免因出现不可预知的情况而造成的“脑裂”现象,FENCE设备的出现,就是为了解决类似这些问题,Fence设备主要就是通过服务器或存储本身的硬件管理接口,或者外部电源管理设备,来对服务器或存储直接发出硬件管理指令,将服务器重启或关机,或者与网络断开连接。FENCE的工作原理是:当意外原因导致主机异常或者宕机时,备机会首先调用FENCE设备,然后通过FENCE设备将异常主机重启或者从网络隔离,当FENCE操作成功执行后,返回信息给备机,备机在接到FENCE成功的信息后,开始接管主机的服务和资源。这样通过FENCE设备,将异常节点占据的资源进行了释放,保证了资源和服务始终运行在一个节点上。RHCS的FENCE设备可以分为两种:内部FENCE和外部FENCE,常用的内部FENCE有IBM
RSAII卡,HP的iLO卡,还有IPMI的设备等,外部fence设备有UPS、SAN SWITCH、NETWORK SWITCH等。
2.2 高可用服务管理器
提供节点服务监控和服务故障转移功能,当一个节点服务出现故障时,将服务转移到另一个健康节点。
2.3 集群配置管理工具
RHCS最新版本通过LUCI来配置和管理RHCS集群,LUCI是一个基于web的集群配置方式,通过ricci
agent实现管理node与集群中node之间的通信,通过luci可以轻松的搭建一个功能强大的集群系统。
2.4 Linux Virtual
Server
LVS是一个开源的负载均衡软件,利用LVS可以将客户端的请求根据指定的负载策略和算法合理的分配到各个服务节点,实现动态、智能的负载分担。