作者:范军 (Frank Fan) 新浪微博:@frankfan7
Stretched Cluster是一把双刃剑,会用的如行云流水,用不好反而受其限制。
传统的vSphere Cluster是指一个Cluster内的所有ESXi主机都在一个物理机房内。Stretched Cluster顾名思义是把Cluster的概念扩展到了不受物理位置的限制。主机可以是在同一个数据中心的不同物理机房,甚至可以分布在不同城市的数据中心。听上去很酷吧,
是否采用Stretched Cluster需要缜密的评估和设计。以下三个步骤可以帮助你理清思路。
一 明确想要什么?
容灾的大概念很模糊,每个人可能都有不同的理解。所以我们需要对以下几个名词吃透。
Disaster Recovery
在一个数据中心的应用意外中断后,在另外一个数据中心把该应用恢复。目的是在Infrastructure层出现大到故障的时候,应用可以在短时间内恢复,尽量减小影响。
Disaster Avoidance
通常指采用主动的措施来避免可能发生的应用中断。比如计划内的机房断电、飓风来袭,地震预警等等。在灾难发生之前,把应用从可能受影响的数据中心切换到另外一个安全的数据中心。在切换过程中可能有短时间内的服务中断。
Downtime Avoidance
与Disaster Avoidance不同,Downtime Avoidance更注重的是不能有服务的中断,不能有数据的损失。这也是vMotion和Storage vMotion大显身手之处。
Active Site Balancing
如果一个数据中心或者是Cluster专门为容灾而建,那么必须保证在灾难来临时有充足的空闲资源。很可能99.99%的时间内大量资源是闲置的。我们不希望灾难发生,可也希望能更有效的利用资源。怎么办?
Active Site Balancing指有效利用所有数据中心的所有资源,尽量避免资源闲置。
下图基于以上四个方面,对Site Recovery Manager 和 Stretched Cluster进行了比较。原文见此链接
如果你明确了Downtime Avoidance和Active Site Balancing是你最最关注的方面,那么比起SRM来说,Stretched Cluster可能更好的满足需求。
二 评估是否满足先决条件
数据中心之间的距离在100KM之内
在两个数据中心内都可以访问扩展的二层网络。数据中心之间的网络延时(latency)<10ms
存储设备支持。查HCL。EMC VPLEX是支持的。我们后文详述。
其他细节见此文vSphere Metro Storage Cluster solutions, what is supported and what not? 链接
三 可能带来的影响
在方案设计中要解决好下面的问题:
Site Affinity
在数据中心A的主机仅仅能够访问本地的存储设备,对于数据中心B的主机,同理亦然。因为访问本地的速度快、可靠性高。
Failover Scenario
对所有可能出现中断的组件,都要验证中断的后果。比如有以下情形:
单个ESXi宕机、多个ESXi宕机、整个机房ESXi宕机、单个ESXi网络中断、数据中心之间用于存储同步的网络中断(StoragePartition)、数据中心之间二层网络中断(DataCenter Partition)、存储阵列磁盘损坏、整个存储阵列宕机、整个数据中心中断
Operational Process
Stretched Cluster是高端技术,的确能解决不少问题。可有一点往往被人们忽视,就是其根本上是依赖于vSphereCluster的底层技术来支撑的。 vShpere Cluster本身有很多特性,比如vMotion,HA等等很不错,同样也有一些力不从心之处。比如在当数据中心A全面中断后,vSphere HA把虚拟机在另外一个数据中心B重新启动。启动顺序是无法保证的。而VMware SRM有完善的DR计划保证满足预先设计的启动顺序。
不能因为有Stretched Cluster就认为完事大吉,需要有严密的OperationalProcess来验证虚拟机极其支持的应用能够正常恢复。
参考:
VMwarevSphere Metro Storage Cluster Case Study
Implementing vSphere Metro Storage Cluster(vMSC) using EMC VPLEX
StretchedClusters and VMware vCenter Site Recovery Manager