认识数据中心两个关键指标RTO和RPO

2024-02-06 12:15:22

用来描述和评价数据中心有很多专有参数和指标，通过这些数据可以反映出数据中心的各种运行状态，其中有两个关键指标必须有所了解: RTO和RPO。RTO和RPO是数据中心灾难恢复方面的重要参考指标。现在的数据中心对业务的连续性有苛刻要求，但是故障不可避免，一旦发生了故障就需要启动备份机制，确保业务的连续性，所以现在数据中心都有较为完善的容灾机制，RTO和RPO可以很好地反映出数据中心容灾性能如何。这两个参数是数据中心在运维过程中，一定要重点关注的指标。这个指标的好与差，是基于数据中心现有的各种综合运行情况评估得出的真实结果，反映当前数据中心在灾难恢复方面的修复能力。下面让我们来详细认识一下这两个参数的真面目。

RTO

RTO(Recovery Time Objective，复原时间目标)是数据中心可容许服务中断的时间长度。比如说服务发生后半天内便需要恢复，RTO数值就是十二小时。RTO具体时间长短只是从故障发生后，从数据中心系统宕机导致应用停顿之刻开始，到数据中心系统恢复至可以支持各部门运作之时，此两点之间的时间段。RTO是反映数据中心业务恢复的及时性指标，表示业务从中断到恢复正常所需的时间，RTO数值越小，代表容灾系统的数据恢复能力越强，数据中心可以部署很多容灾系统，来获取最小的RTO，但这意味着投入大量资金。提升RTO的常用技术有：磁带恢复、人工迁移、应用系统远程切换，这几种技术的RTO的表现如表1所示：

部署不同的容灾技术将获得不同的RTO值，从业务连续性角度考虑，肯定希望RTO数值越小越好，尤其是很多互联网数据中心，中断几分钟都会损失数百万的成交量，这些数据中心往往不惜一切代价要确保数据中心不中断运行。应用系统的自动切换涉及到数据中心网络、服务器、存储等多方面的技术，不管数据中心任何一个位置出现了故障，这些部分都会启动软件系统进行切换，可以是设备之间的切换，也可能是集群之间的切换，还可能是异地数据中心切换，通过应用系统自动切换将业务转移到其它正常的系统中，然后再对故障设备进行排查。将故障原因找到并排除后，再将业务切回到原有系统中，应用系统切换做得好，这个过程不会引起业务的二次中断，让业务无感知切换。

RPO

RPO（Recovery Point Objective，复原点目标）是指数据中心能容忍的最大数据丢失量，是指当业务恢复后，恢复得来的数据所对应时间点，RPO取决于数据中心数据恢复到怎样的更新程度，这种更新程度可以是上一周的备份数据，也可以是昨天的数据，这和数据备份的频率有关，为了改进RPO，必然要增加数据备份的频率才行。RPO是反映数据中心恢复数据完整性的指标。在同步数据复制方式下，RPO等于数据传输时延的时间，在异步数据复制方式下，RPO基本为异步传输数据排队的时间。提升RPO的常用技术有：磁带备份、定期数据复制、异步数据复制、同步数据复制等，这几种技术的RPO的表现如表2所示：

RPO指标考验着数据中心数据复制能力，这并不意味单纯增加数据复制的频率即可，因为应用的高峰时段无法进行备份操作，而且备份数据本身所花费的时间也会过长，数据复制频率增加到一定程度反而会降低RPO时长。现在出现镜像技术和快照技术可以有效地改进RPO，往往可以将RPO缩小到秒级。

RTO和RPO指标并不是孤立的，而是从不同角度来反映数据中心的容灾能力。我们用下面的图1说明下RTO和RPO两个指标在数据中心故障处理过程中的关系：

从图1不难看出，RPO指标来自于故障发生前，而RTO指标来自故障发生后，两者的数值越小，就能有效缩短业务正常到业务过渡期的时间间隔，单一地提升RTO或RPO指标也可以缩减业务故障到过渡期的时间，具体从哪个指标上来改善，就要结合数据中心的实际情况分析，提升那个指标代价最小，效果更明显。当然完美的方案当然是RTO和RPO都为零，这表示当故障发生后，系统立即回复，而且完全没有数据丢失，要达到这样的目标系统设计是及其复杂的，而且造价也是非常昂贵的，也不一定有这个必要。

RTO和RPO指标对于数据中心非常关键和重要，RTO主要考验数据中心发生故障时，业务切换到容灾系统或者备份系统的能力，RPO主要考验数据中心数据备份能力，尤其是当数据中心发生故障时，仍要具备一定的数据备份能力。但数据中心也不能过分地追求RTO和RPO，因为RTO和RPO越小，意味着投资将越大。而总体投入成本越高，投资回报率将越低，从经济角度考虑，最好的容灾解决方案不一定是效益最好的容灾方案，容灾方案的总体投入和投资回报也是必须要考虑的设计指标，最佳的解决方案必须是在RTO、RPO、运维及价钱多方面，都能够达到平衡。所以要理性看待RTO和RPO，一方面我们努力设计一些新的容灾技术，另一方面还要简化容灾技术的复杂度和造价，不要一再去追求RTO和RPO指标，有时数据中心有些缺陷，也是一种缺陷美。过度追求RTO和RPO指标，甚至做到两者都是零，反而让数据中心更加臃肿，运维难度大，耗费资金过多，数据中心要避免陷入单纯追求提升两个指标的怪圈，结合数据中心实际情况，因地制宜地适当提升两个指标，才是正道。

码农公寓

相关文章