7.4 术语与概念
一组计算机被称为集群。集群内的一台计算机被称为一个节点。
当集群内的节点数量是 N (2,,3,等。) ,那么我们讨论一个N节点的集群。
高可用性软件,传输层和集群管理层都运行于每个节点。
集群提供服务或资源。由于每个节点运行一个集群管理层呢个的实例,任何服务可以在任何节点上启动。集群管理层的规则控制服务的安置。
服务可以是独立的,克隆的,或master-slave资源。一个独立资源的唯一实例可以在整个集群的任何时间运行。克隆资源工作很类似于独立的资源,但是超过一个实例可以在集群 中运行,它们独立地工作。Master-slave 资源通常是 相互关联的或连接到一起,它们彼此依赖。在Pacemaker的具体实施中,master-slave 资源都作为slave启动,它们中的任何一个都可以发生角色升级或降级。资源脚本会为高可用性管理层提供它们的状态暗示,就像哪一个准备被提升,哪一个不能被提升。
资源以资源代理的形式被提供。通常,这些脚本符合一组规则:如何接受参数,它们可以运行在什么模式,在特殊的错误情况下,返回什么代码。在高可用性集群中,集群中的一台计算机(或计算机的一个子集) 可以在任何时间接管之前的一台计算机的服务。这可以被管理员控制或者它可以是自动。
服务接管的特殊情况被称为故障转移 (fail-over),当一个服务或计算机出现故障的时候会发生。监控是高可用性集群的一个必要部分,这使自动故障恢复称为可能。集群中的所有节点都代表一个表决权。当集群内部的网络连接中断,一些节点能够看到彼此,但不是集群中的所有节点(因此形成了“孤岛”节点),这称为脑裂情形(split-brain situation)。这是一个错误状态。投票被可以相互通信的节点所保持。在这方面,我们可以讨论集群规模较小和较大的部分,有和没有多数的多数投票。多数被称为法定人数。
错误的计算机或服务必须自动从集群中被排除以确保正常运行。此操作称为防护(fencing)。防护也被用来防止脑裂情形(split-brain situation)。防护可以是自愿的或强制到外部。Linux-HA开发者开玩笑地介绍了强制防护术语作为Shoot The Other Node In The Head (STONITH)的首字母缩写和名片。防护可以使用的模式取决于集群中节点的数目。
当服务被提供服务的节点放弃时会发生自愿防护或自我防护。它可用于奇数(3, 5, 7...)节点的集群。脑裂情形只会在集群的一部分比其它部分小的情况发生。在这种情况下,在较小部分的节点自愿放弃它们的服务,较大的部分自动依靠这个事实启动这些服务。
节点题哦个服务是相称的,这没什么不同。这暗示着偶数个节点,在一个分裂的集群的情况下,在投票中有一个平局。这可以通过添加另外一个不提供的节点来解决,只是一个投票节点。正因为如此,它是一个打破平局的节点。这个节点称为法定服务器。
强制防护(STONITH)可以用来作为一个额外的或法定服务器的替代者。强制防护只能和专用硬件,远程管理设备一起使用。它可以被内置于计算机机箱或主板,但它也可以是一个附加卡。这样的硬件是智能平台管理接口 (IPMI),惠普的 Integral Lights-Out (iLO), 戴尔的Dell Remote Access Card (DRAC). 这提供了一个特别的直接管理节点。有时,一个专用的管理计算机被用来管理别的计算机;例如,英特尔刀片服务器,它为节点提供了一个 代理;这就是所谓的间接管理。远程管理节点可以控制节点的电源状态;您可以物理地远程关闭节点。高可用性软件使用此功能,由于一个被关闭的节点明显地不能参与到集群中。对于有偶数个节点的集群,可能没有“较小的部分”,所以只有强制防护是可用的。
单点故障(SPOF)是一个设计缺陷,该缺陷可以产生一个整个集群以意外停机时间的形式故障。