用来描述和评价数据中心有很多专有参数和指标,通过这些数据可以反映出数据中心的各种运行状态,其中有两个关键指标必须有所了解: RTO和RPO。RTO和RPO是数据中心灾难恢复方面的重要参考指标。现在的数据中心对业务的连续性有苛刻要求,但是故障不可避免,一旦发生了故障就需要启动备份机制,确保业务的连续性,所以现在数据中心都有较为完善的容灾机制,RTO和RPO可以很好地反映出数据中心容灾性能如何。这两个参数是数据中心在运维过程中,一定要重点关注的指标。这个指标的好与差,是基于数据中心现有的各种综合运行情况评估得出的真实结果,反映当前数据中心在灾难恢复方面的修复能力。下面让我们来详细认识一下这两个参数的真面目。
RTO
RTO(Recovery Time Objective,复原时间目标)是数据中心可容许服务中断的时间长度。比如说服务发生后半天内便需要恢复,RTO数值就是十二小时。RTO具体时间长短只是从故障发生后,从数据中心系统宕机导致应用停顿之刻开始,到数据中心系统恢复至可以支持各部门运作之时,此两点之间的时间段。RTO是反映数据中心业务恢复的及时性指标,表示业务从中断到恢复正常所需的时间,RTO数值越小,代表容灾系统的数据恢复能力越强,数据中心可以部署很多容灾系统,来获取最小的RTO,但这意味着投入大量资金。提升RTO的常用技术有:磁带恢复、人工迁移、应用系统远程切换,这几种技术的RTO的表现如表1所示:
部署不同的容灾技术将获得不同的RTO值,从业务连续性角度考虑,肯定希望RTO数值越小越好,尤其是很多互联网数据中心,中断几分钟都会损失数百万的成交量,这些数据中心往往不惜一切代价要确保数据中心不中断运行。应用系统的自动切换涉及到数据中心网络、服务器、存储等多方面的技术,不管数据中心任何一个位置出现了故障,这些部分都会启动软件系统进行切换,可以是设备之间的切换,也可能是集群之间的切换,还可能是异地数据中心切换,通过应用系统自动切换将业务转移到其它正常的系统中,然后再对故障设备进行排查。将故障原因找到并排除后,再将业务切回到原有系统中,应用系统切换做得好,这个过程不会引起业务的二次中断,让业务无感知切换。
RPO
RPO(Recovery Point Objective,复原点目标)是指数据中心能容忍的最大数据丢失量,是指当业务恢复后,恢复得来的数据所对应时间点,RPO取决于数据中心数据恢复到怎样的更新程度,这种更新程度可以是上一周的备份数据,也可以是昨天的数据,这和数据备份的频率有关,为了改进RPO,必然要增加数据备份的频率才行。RPO是反映数据中心恢复数据完整性的指标。在同步数据复制方式下,RPO等于数据传输时延的时间,在异步数据复制方式下,RPO基本为异步传输数据排队的时间。提升RPO的常用技术有:磁带备份、定期数据复制、异步数据复制、同步数据复制等,这几种技术的RPO的表现如表2所示:
RPO指标考验着数据中心数据复制能力,这并不意味单纯增加数据复制的频率即可,因为应用的高峰时段无法进行备份操作,而且备份数据本身所花费的时间也会过长,数据复制频率增加到一定程度反而会降低RPO时长。现在出现镜像技术和快照技术可以有效地改进RPO,往往可以将RPO缩小到秒级。
RTO和RPO指标并不是孤立的,而是从不同角度来反映数据中心的容灾能力。我们用下面的图1说明下RTO和RPO两个指标在数据中心故障处理过程中的关系:
从图1不难看出,RPO指标来自于故障发生前,而RTO指标来自故障发生后,两者的数值越小,就能有效缩短业务正常到业务过渡期的时间间隔,单一地提升RTO或RPO指标也可以缩减业务故障到过渡期的时间,具体从哪个指标上来改善,就要结合数据中心的实际情况分析,提升那个指标代价最小,效果更明显。当然完美的方案当然是RTO和RPO都为零,这表示当故障发生后,系统立即回复,而且完全没有数据丢失,要达到这样的目标系统设计是及其复杂的,而且造价也是非常昂贵的,也不一定有这个必要。
RTO和RPO指标对于数据中心非常关键和重要,RTO主要考验数据中心发生故障时,业务切换到容灾系统或者备份系统的能力,RPO主要考验数据中心数据备份能力,尤其是当数据中心发生故障时,仍要具备一定的数据备份能力。但数据中心也不能过分地追求RTO和RPO,因为RTO和RPO越小,意味着投资将越大。而总体投入成本越高,投资回报率将越低,从经济角度考虑,最好的容灾解决方案不一定是效益最好的容灾方案,容灾方案的总体投入和投资回报也是必须要考虑的设计指标,最佳的解决方案必须是在RTO、RPO、运维及价钱多方面,都能够达到平衡。所以要理性看待RTO和RPO,一方面我们努力设计一些新的容灾技术,另一方面还要简化容灾技术的复杂度和造价,不要一再去追求RTO和RPO指标,有时数据中心有些缺陷,也是一种缺陷美。过度追求RTO和RPO指标,甚至做到两者都是零,反而让数据中心更加臃肿,运维难度大,耗费资金过多,数据中心要避免陷入单纯追求提升两个指标的怪圈,结合数据中心实际情况,因地制宜地适当提升两个指标,才是正道。