最近在做数据湖产品和客户项目,遇到要把客户线下大数据存储搬迁上云,特别是存储到数据湖存储 OSS 的场景。尽管OSS团队提供了闪电立方离线迁移设备、在线迁移服务,但是针对大数据场景的适配还是发现需要优化的地方。业界大数据迁移上云厂家 WANdisco ,提供了线下 Hadoop 大数据迁移上云的产品,值得分析和学习。
一、厂家介绍
官网介绍核心能力是 分钟级迁移任何规模数据到任意云(Start migrating your data lake in minutes, at any scale, to any cloud),典型特点:
- 无中断的云迁移(Cloud Migration without disruption)。通过 LiveData Migrator 产品实现迁移上云,无需担心业务连续性。
- 混合云统一体验(Hybrid Cloud without gaps)。将专有云和公共云拉通为统一的集成运维,易使用、性价比高。
- 无缝的多云方案(Multi Cloud without compromise)。通过 LiveData Platform 产品实现可以实现跨云、跨地域的数据访问。
采用 Gartner 的总结,WANdisco 公司的 LiveData 产品系列,提供了PB级的数据迁移能力,并且保障生产业务无中断,也保证无数据丢失风险。
二、架构和平台
WANdisco 公司的核心是 LiveData Platform 软件平台,它支持数据全球分布,但不会因此降低数字传输速度。该平台的核心目的是 保护投资(Protect your investment,No downtime, no outages, and no risk with guaranteed near-zero RTO and RPO)、IT生态转型(Transform your IT economics,Create a bedrock for performance by fully utilizing hardware previously reserved for backup and recovery)、打破历史限制(Break through legacy constraints,Put all your data to work for the business and innovate without worrying that your IT investments will be left behind)。
LiveData 战略目标是让数据全球可访问并且跨地域一致,缓解数据孤岛的挑战,始终保证企业数据在全球IT环境下的准确性、访问性、一致性,支持用户和应用始终拥有可用的数据,而无需担心全球位置,数据平台架构,以及云供应商地层依赖。其核心架构,如下图所示。
- 核心引擎包含 5 个部件:连接Hadoop和对象存储(Hadoop & Object Storage Connectivity)、协调引擎(Coordination Engine)、安全(Security)、接口(Interfaces/APIs)、管理界面(Web UI)。
- 大数据关键的 4 个插件:Hive Plugin、Ranger Plugin、Sentry Plugin、Backup Plugin。
- 支持的 3 个产品:LiveData Migrator(迁移数据、元数据)、LiveData Plane(专有云、公共云的数据复制)、LiveData for MultiCloud(跨多云的数据一致性)。
三、产品文档分析
WANdisco 按产品维度提供了各版本的 文档,可以方便的了解技术内容。
3.1 LiveData Migrator 产品介绍
- 支持数据迁移。数据源端包括:HDFS、S3、IBM COS and local storage,数据目标端包括:ADLS Gen2、Amazon S3、Google Cloud Storage、IBM Cloud Object Storage 和 HDFS。
- 支持元数据迁移。元数据源端包括:Apache Hive、AWS Glue Data Catalog,数据目标端包括:Apache Hive、Azure SQL DB、AWS Glue Data Catalog、Databricks、Google Dataproc 和 Azure Snowflake。
- 典型功能:数据迁移、备份和恢复(Back and Restore)、迁移验证(Migration Verifications)。
3.2 LiveData Plane (Fusion) 产品介绍
产品核心技术是 协调引擎,它使用 consensus 技术保证 Hadoop 和对象数据的访问性、准确性、一致性,其典型优势为统一协调数据变更(Coordinates changes to data)、降低时延(Minimizes latency)、容错能力(Eliminates points of failure)、自修复功能(Self-healing)、多向复制(Multi-directional replication)、支持 Hadoop 文件系统&对象存储&Hive&安全元数据、支持多种网络(LAN, WAN, public and private clouds)。
3.3 LiveData Platform for Azure 产品介绍
为了更好的适配 Azure 环境,LiveData Platform for Azure 提供该支持。通过该公司的 Distributed Coordination Engine 支持所有环境到 Azure 的适配,包括专有云、混合云、多地域、多云等环境。
3.4 LiveData for MultiCloud 产品介绍
针对对象存储服务,提供跨云的数据复制。目前支持S3、Azure Blob的对象存储,并提供数据一致性监测、修复工作。
LiveData for MultiCloud provides LiveData replication across different types of object storage services. It combines the functionality and, going forward, replaces the Plugins for Live S3 and Live Azure Blob Storage. It brings the added benefit of support for the coordination of activities between Fusion zones that reference underlying object storage services that do not use the same interface in each zone.
3.5 插件能力
- LiveData Backup Plugin (Fusion Backup)。 该产品将 HDFS 集群数据备份到其他集群,并且提供快照能力,从而能够恢复到指定时间点。
- LiveData Hive Plugin (Live Hive)。用户支持Hive的 MetaStore,并且支持跨数据中心部署。
- **LiveData Ranger Plugin (Live Ranger)。支持Apache 开源组件 Ranger,该组件提供了安全管理的框架,从而可以适配到存量的 Hadoop 安全环境中。
- LiveData Sentry Plugin (Live Sentry)。支持
Apache 开源组件 Sentry,该组件提供了策略管理能力。
- LiveData for Databricks (Databricks Delta Lake Plugin)。支持 Databricks Delta Lake 能力。
3.6 Access Control Plus 产品介绍
该产品提供易用、图形化点击实现的源代码控制机制,它能够和 LDAP、AD 集成,帮助管理代码。同时,针对 Gerrit 提供了 Gerrit Multisite工具、针对 Git 提供了 Git Multisite、针对 SVN 提供了 SVN Multisite Plus
四、小结
通过对 WANdisco 的产品和技术分析,可见就数据迁移本身和阿里云的闪电立方、数据迁移并没有太多差异化的东西。其亮点是在大数据生态下和开源组建 Hive、Ranger、Sentry 的支持,从而能够平滑切入存量 Hadoop 业务。同时通过和 AWS S3、Azure Blob、Databricks Delta Lake 定的兼容适配,支撑了多云能力。最后,在用于 Gerrit、Git、SVN 场景下也给出了最佳实践。
特别是针对大数据生态的适配,对于 OSS 支持数据湖还是有不少的借鉴意义和行动指导。