详解持续数据保护(CDP)和数据副本管理(CDM)技术

数据资产是企业生存的根本,企业对数据资产保护的诉求推动数据保护技术的一次次变革,从原始的手工数据副本拷贝例行脚本系统工具(如RMAN)、备份软件快照,再到持续数据保护数据副本管理(CDM)


      备份软件、快照等技术是目前应用最广泛、最成熟的技术,有大量成熟产品。前期我在微信上零散的做过全面的技术分享,并细化汇总成<数据备份和副本管理技术全面解析>,领域涉及的小伙伴可点击原文链接查看详情。


      个人认为:持续数据保护(CDP)、CDM技术将真正有能力在云计算海量数据时代承担更多核心数据资产保护任务,本文详细分析下CDP技术。


      实际上,持续数据保护(Continuous Data Protection)技术是对传统数据保护技术的一个重大突破。系统管理者无须关注数据的备份过程,而是仅仅当灾难发生后,简单地选择需要恢复到的数据备份时间点即可实现数据的快速恢复。


      灾难恢复的对象主要有两个,其一是应用的业务数据,其二是应用的运行状态。通常的灾难恢复技术包括数据的备份、复制、应用的远程集群等。现在,一种新的灾难恢复技术――持续数据保护是灾难恢复的新选择


      SNIA对CDP的定义是: 持续数据保护是一套方法,它可以捕获或跟踪数据的变化,并将其在生产数据之外独立存放,以确保数据可以恢复到过去的任意时间点。持续数据保护系统可以基于块、文件或应用实现,可以为恢复对象提供足够细的恢复粒度,实现几乎无限多的恢复时间点。

      传统的数据保护解决方案专注在对数据的周期性备份上,因此一直伴随有备份窗口、数据一致性以及对生产系统的影响等问题。


     然而,CDP为用户提供了新的数据保护手段,系统管理者无须关注数据的备份过程(因为CDP系统会不断监测关键数据的变化,从而不断地自动实现数据的保护),而是仅仅当灾难发生后,简单地选择需要恢复到的数据备份时间点即可实现数据的快速恢复。

      持续数据保护和传统的灾难恢复技术相比,持续数据保护具有如下明显的特点。


      1、首先可以大大提高数据恢复时间点目标(RPO)。备份技术实现的数据保护间隔一般为24小时(每天备份一次),因此用户会面临数据丢失多达24小时的风险,采用快照技术,可以将数据的丢失风险降低到几个小时之内,而CDP能够实现的数据丢失量可以降低到几秒(当然,不同的CDP产品和解决方案提供的时间精度也不尽相同)。


      实际上,在传统数据保护技术中采用的是对“单时间点(Single Point-In-Time)”的数据拷贝进行管理的模式,而持续数据保护可以实现对“任意时间点(Any Point-In-Time)”的数据保护。

      2、虽然复制技术可以通过与生产数据的同步获得数据的最新状态,但其无法规避由人为的逻辑错误或病毒***所造成的数据丢失。当生产数据由于以上原因导致数据遭到破坏时(例如数据被误删除),复制技术会将遭到破坏的数据状态同步到后备数据存储系统,使后备数据也受到破坏。CDP系统可以使数据状态恢复到数据遭到破坏之前的任意一个时间点,也就可以消除前者具有的风险。


      3、由于恢复时间和恢复对象的粒度更细,所以持续数据保护的数据恢复也更加灵活。目前的部分产品和解决方案允许最终用户(而不仅仅是系统管理员)直接对数据进行恢复操作,这在很大程度上方便了使用者。

 

      持续数据保护实现的关键技术是对数据变化的记录和保存,以便实现任意时间点的快速恢复。一般来讲,有三种实现方式


      1、基准参考数据模式,建立参考数据拷贝,根据生产数据变化记录数据差异日志,根据日志差异按需恢复数据。基准参考数据模式原理简单,实现起来比较容易,但由于数据恢复时需要从最原始的参考数据开始,逐步进行数据恢复,因此恢复时间比较长,尤其是恢复时间点越靠近当前的时间,恢复所需要的时间就越长。


  

    2、复制参考数据模式,生产数据和参考数据副本事实同步,在同步的同时记录回退日志或事件,基于回退日志差异实现数据按需恢复。复制参考数据模式和基准参考数据模式在实现原理上恰好相反。复制参考数据模式在数据恢复时,恢复的时间点越靠近当前,所需要的恢复时间越短。但在数据的保存过程中,需要同时进行数据和日志记录的同步,需要较多的系统资源。


  

    3、合成参考数据模式,合成参考数据模式是以上两种模式的折衷,较好地实现了以上两种模式的妥协,因此可以得到较好的资源占用和恢复时间效果。但需要复杂的软件管理和数据处理功能,实现起来比较复杂。


 

     持续数据保护技术或解决方案的实现有多种模式。不同的厂商建立了不同的持续数据保护模型,参考SNIA的存储共享模型, 可以将实现持续数据保护的产品或解决方案分为基于应用、基于文件和基于数据块的持续数据保护。

 

1、基于应用实现持续数据保护


      对需要保护的关键应用程序,可以在其中直接嵌入和运行CDP功能。这种实现CDP的方式首先能够和应用进行深度整合,确保应用数据在持续保护中的一致性。CDP功能可以由软件厂商将其直接嵌入在软件产品中,也可以是软件厂商提供API接口,由第三方软件开发商来开发完成。基于应用的CDP最大好处是与应用程序结合紧密,管理也比较灵活,易于用户部署和实施。

      目前基于应用程序的CDP解决方案大部分是针对成熟的应用开发的。如支持微软公司的Office、Exchange、IBM的DB2,以及Oracle数据库等。


2、基于文件实现持续数据保护


      基于文件的CDP,其功能作用在文件系统上。它可以捕捉文件系统数据或者元数据的变化事件(例如创建、修改、删除等),并及时将文件的变动进行记录,以便将来实现任意时间点的文件恢复。

      IBM公司的VitalFile、Storactive公司的Live Backup for Desktop、TimeSpring公司的TimeData等产品,都能提供基于文件的CDP功能。VSS是微软公司基于Windows操作系统的一项CDP功能实现模块,VSS提供了实现CDP(尽管其备份时间粒度比较大)的API,第三方软件可以在其基础上进行开发,目前基于VSS的产品有微软的DPM和Symantec的Backup Exec 10D等。

 

3、基于数据块实现持续数据保护


      基于块的CDP功能直接运行在物理的存储设备或逻辑的卷管理器上,甚至也可以运行在数据传输层上。当数据块写入生产数据的存储设备时,CDP系统可以捕获数据的拷贝并将其存放在另外一个存储设备中。

 

      基于数据块的数据保护又有基于主机层、基于传输层和基于存储层三类实现方式。一般来讲,基于块的持续数据保护除在主机层实现以外,相关的产品和技术比较复杂,实施成本也相应地比较高,因此适合于有持续数据保护需求的大中型企业。


      由于CDP技术CDM技术在数据保护和灾难恢复中具有的特点和优势,越来越多的用户会将目光投放在这一灾难恢复的新技术上。相信随着时间的推移和技术成熟,除了EMC iCDM、Cohesity鼎甲InfoSemper等产品外,会有越来越多的CDM解决方案和产品出现,在实现持续数据保护的需求上,用户将会有越来越多的选择。


      关于CDP技术的文章分享先告一段落,后续再找时间分析CDM。下面是电子书<数据备份和副本管理技术全面解析>主要内容。


第1章 数据备份技术的发展 1

1.1 备份技术发展介绍 4

1.1.1 Host备份方式 6

1.1.2 LAN备份方式 6

1.1.3 LAN-free备份方式 7

1.1.4 Server-free备份方式 8

1.1.5 Server-less备份方式 8

1.2 主流备份软件介绍 9

1.2.1 EMC备份软件 10

1.2.2 CommVault备份软件 12

1.2.3 Symantec备份软件 13

1.2.4 IBM备份软件 15

1.3 备份软件功能分析 16

1.3.1 备份归档功能 16

1.3.2 数据重删 17

1.3.3 NDMP备份 17

1.3.4 兼容性和易维护性 17

1.3.5 NAS备份和NDMP技术 17

1.3.6 传统NAS备份如何实现 17

1.3.7 NDMP具体实现 18

第2章 CV SimPana 11特性解读 22

2.1 一体化数据管理平台 22

2.2 海量文件管理流程 24

2.3 文件系统块级备份 25

2.4 全方位支持虚拟机保护 26

2.5 Live系列特性 27

2.6 云备份和恢复 29

第3章 备份软件体系架构解析 31

3.1 备份技术概述 32

3.2 备份软件架构 32

3.3 多备份域管理 34

3.4 数据归档和恢复 36

3.5 备份和归档的区别 39

第4章 备份软件分布式索引架构 39

4.1 备份和恢复对索引操作 42

4.2 数据索引的维护 44

第5章 备份软件关键特性 44

5.1 SimPana重删压缩原理 45

5.2 介质服务器并行重删 46

5.3 数据复制功能 47

5.4 硬件快照IntelliSnap 48

5.5 AnyBackup重删原理 50

5.6 AnyBackup远程复制技术 51

5.7 AnyBackup虚拟机即时恢复 51

第6章 备份软件方案可靠性解析 52

6.1 备份介质可靠性 53

6.2 介质服务器可靠性 54

6.3 备份管理服务器可靠性 55

6.3.1 冷备份方案 55

6.3.2 高可用方案 56

第7章 虚拟机备份原理解析 58

7.1 VMware备份接口和原理 58

7.2 Hyper-V备份接口和原理 63

7.3 Citrix备份接口和原理 65

第8章 数据重删在备份场景应用 67

8.1 重删在备份设备上的实现 67

8.2 重删在备份软件上的实现 68

第9章 备份存储配置原理和实践 69

9.1 备份策略设计方法 70

9.2 容量计算方法 70

9.3 性能计算方法 72

第10章 SnapVault和SnapDiff技术 73

10.1 SnapDiff技术分析 74

10.2 SnapVault技术分析 76

10.3 Open Systems SnapVault技术 77

第11章 无代理备份技术分析 78

11.1 虚拟环境下无代理备份 78

11.2 物理环境下无代理备份 79

第12章 数据持续保护(CDP)技术分析 82

12.1 基准参考数据模式 84

12.2 复制参考数据模式 85

12.3 合成参考数据模式 85

12.4 基于应用实现持续数据保护 85

12.5 基于文件实现持续数据保护 85

12.6 基于数据块实现持续数据保护 86

12.7 EMC RecoverPoint解决方案 86

12.7.1 RecoverPoint CDP 86

12.7.2 RecoverPoint CRR 87

12.7.3 RecoverPoint CLR 87

12.7.4 RecoverPoint原理分析 87

12.7.5 数据库一致性保证 89

12.8 飞康CDP解决方案 89

12.8.1 Side-Band旁路方式 91

12.8.2 远程Filesafe/Disksafe方式 91

12.8.3 In-Band带内方式 91

12.8.4 SANTap数据分流方式 92

12.8.5 多时间点自动连续快照技术 92

12.8.6 数据库一致性确认技术 92

12.8.7 磁盘读/写优化技术 93

第13章 CDM技术和产品分析 93

13.1 CDM技术背景 93

13.2 CDM技术架构 94

13.3 EMC iCDM 95

13.4 Cohesity技术 96

13.5 鼎甲InfoSemper 97

第14章 备份方案实践和趋势 97

14.1 eBackup备份软件 97

14.2 SimPana虚拟机备份 99

14.3 超融合一体机备份 100

14.4 Asigra云备份方案 100

        然而,CDM(Copy Data Management) 则是一种节约存储资源,有效管理数据生命周期的方法,包括消除不必要的重复生产数据。由于传统备份软件和企业应用程序独立运行,经常会创建多个相同数据的副本。


相同数据的冗余副本不但浪费存储空间,还降低网络性能,使数据访问或恢复关键数据任务更加困难。CDM软件可以通过减少数据的完整副本的数量来消除这些问题。 


CDM工作机制和原理


CDM管理软件通过创建一个完整的数据拷贝来工作。当生产环境对原数据进行更改时,软件将以块级粒度创建存储增量更改的快照。由于快照写操作不会指向原数据副本,管理员不必担心主副本的内容会发生意外更改。减少完整副本的数量也减少了存储、服务器资源的消耗,进而降低成本,因为有价值的存储空间不会被不必要的数据拷贝所占用。


为什么复制数据管理很重要?


      随着存储容量的扩大,复制数据管理技术缓解这一需求的加剧。数据正以稳定的速度增长,不必要的数据拷贝占用了大量的存储空间。存储虚拟化有利于备份和恢复,但是额外数据的创建和存储可能是一个难点。


      因为存储多个副本和备份通常是标准的措施,也是数据保护常有实践,所以往往复制的数量很快就会失控。存储效率和生能力可能会因为过多的拷贝数据而陷入困境。然而,这些额外的存储空间都是有代价的。数据存储并不便宜,而且存储容量越大,在不必要的存储开销上的浪费就越严重。通过消除额外的数据拷贝,组织不仅可以提高效率,而且可以释放昂贵的存储空间。


CDM数据副本管理的好处?


  • 加快应用程序的发布周期,提高决策效率,提高效率和生产力,快速、简单和自导向的以适当的格式访问副本数据。

  • 副本数据的使用使数据具备有更大的可视性,同时确保遵从性和降低安全性风险

  • 通过集中控制、自动化和编排降低存储管理成本。通过正确地存储正确的数据拷贝数来减少存储成本。


数据副本管理CDM和备份关系


      虽然CDM数据副本管理具备一定的备份工具能力,但它不能替代传统备份的工具。CDM不是为数据保护设计的,而是为了存储效率而设计的。虽然CDM可以用于创建数据恢复点,但它并没有创建数据源的真正备份。


      存储快照在传统数据备份和CDM中都会用到,在一定程度上,一些组织可能认为快照是备份的替代品。但是,由于快照和备份常常通过冗余来达到多数据副本目的,CDM可能不会达到同样的目的。


如何找到正确的CDM产品


      虽然大多数CDM数据副本管理平台在某些特性和功能是一致的,但是CDM产品在供应商之间是有差异的,针对不同客户,不同的CDM产品可能比其他产品更适合其应用和场景。


      领先的CDM供应商包括Actifio Inc.、Catalogic Software、Cohesity Inc.、Commvault Systems Inc.、Delphix Corp.Rubrik Inc.


      目前,数据副本管理供应商正在发布具有许多相同特性和功能的产品。大多数CDM供应商都销售可以从生产平台导入数据的产品,并通过其软件把数据导入其管理的存储系统。还有产品允许数据管理跨不同的传统同构、异构存储产品。


主流的CDM供应商都提供支持物理和虚拟数据资源的CDM产品,有些供应商还提供备份、归档等存储设备。随着市场的成熟,越来越多的供应商正在向他们的产品增加公有云数据存储和流动能力。


CDM数据副本管理市场的未来


      无序扩张变得越来越重严重,数据增长的现状和问题也不会很快消失。解决之道或许就是CDM技术和产品。根据在2017年Taneja Group的一项研究表明,超过30%的公司正在考虑或实施CDM产品


      由于供应商在CDM数据副本管理软件增加了更多的特性来应对迫切的数据保护和备份问题,CDM队伍和市场在未来可能会继续增长。


      在选择复制数据管理产品时,可选的产品和功能数量可能会令人生畏。作为企业组织,需要了解如何比较产品以获得满足特定需求的产品。

在过去的几年里,数据副本管理已经成为降低存储成本的首选技术。随着这种技术的普及,数据副本管理供应商也变得鱼目混杂、良莠不齐。组织如何决定选择哪款产品呢?成本是一个因素,此外,还有如下几个重要的选择标准应该考虑


1、CDM具备什么可靠性保护机制?


      通过消除多个数据副本,CDM数据副本管理产品可以降低存储成本。因为数据副本管理往往处理单个的集中数据复制,如果数据损坏,数据复制就会成为单点故障。


      在理想情况下,数据副本管理供应商应该提供一个选项,其产品支持创建一个辅助数据副本(最好复制到远程数据中心),这样在主副本数据发生物理故障时,有在线和可用的数据副本保证业务可用和连续。


2、数据初始副本是如何创建的?


      假设,CDM软件是通过一个发现过程来发现定位企业数据,但是在这个发现过程中有两个重要的考虑因素。


      发现过程会产生大量的存储开销吗?一些复制数据管理产品要求将数据库复制或移动到另一个位置(从而暂时增加存储消耗),这给较大的数据库带来性能问题。


      软件如何处理相似的数据?如果发现过程发现了一堆相同的文件副本,是否需要管理员必须将一个副本标记为“正确”?软件是否保留每一份拷贝?发现过程是否在数据块级别工作?理解软件如何确定哪些数据是冗余的,哪些数据不是,这一点很重要。


3、是否有硬件要求或限制?


      一些数据副本管理产品被设计成直接与组织的存储进行交互。对于这样的CDM产品来说,客户的存储必须与数据副本管理软件兼容。


      与存储无关设计的数据副本管理产品,在操作系统级别或Hypervisor管理程序级别有所依赖。虽然这种方法消除了存储兼容性问题,但是直接与存储设备交互的产品可能具有性能优势。


4、CDM产品可与云一起工作吗?


      组织同时在本地数据中心和公共云中存储数据的情况越来越普遍。尽管公共云常被称为提供“无限存储”,但大多数公共云服务提供商根据其使用的存储数量以及其他因素向客户收取月费。因此,数据简化技术(如数据副本管理)可能对云存储成本产生实际影响。


5、CDM具备怎样的报表功能?


      数据副本管理产品的报表功能往往被视为相对无关紧要。但是,管理员必须能够监视存储消耗和存储性能情况。目前市场上有大量的数据管理产品,这些产品之间都具备细微差别。因此,在评估数据副本管理供应商之前,需要考虑哪些特性和功能对客户或组织最有好处。


涉及备份领域或感兴趣的小伙伴可点击原文链接查看<数据备份和副本管理技术全面解析>详情。需要再次说明强调:电子书内容绝大部分来自本号历史原创文章整理,读者可以查阅历史文章零散免费阅读。


上一篇:详谈持续数据保护(CDP)和数据副本管理(CDM)技术


下一篇:第52课 C++中的抽象类和接口