概述:
2021年3月25日,全球权威分析机构 Forrester 发布 《The Forrester Wave™: Cloud Data Warehouse, Q1 2021》研究报告,阿里云凭借产品现有能力、产品战略、市场表现三项优势,进入 Forrester Wave 2021 Q1 云数据仓库卓越表现者象限,成为入选此次评测的唯一中国厂商。
本次 Forrester 针对入选的 13 家国际最重要的云数据仓库服务商(见下表), 从产品、战略、和市场表现三个维度,26个指标 60 多项评估细则进行了研究、分析和评分。最终报告显示了每个提供商在每项的评比分数,帮助企业架构专业人员根据他们的需求选择正确的厂商。作为读者,也能从 Forrester 的这些评测项中理解、学习现代云数据仓库的定义、应具备能力以及未来的发展趋势。
下面我们就针对 Forrester 的报告内容,结合阿里云 MaxCompute、DataWorks、AnalyticDB 几款云数仓产品,对现代云数仓做一下全面的技术解读。
技术解读:
现代云数仓的内涵:Forrester 认为现在云数仓需要具备的几个特性:
- 极致弹性:在分钟级别内提供任意规模,能够自动优化查询
- 存算分离:按需独立扩展计算和存储等资源(存算分离)并能无感知自动升级。
- 为了满足对更集中、实时和自助式分析日益增长的需求,云数仓供应商将继续专注于与数据湖和对象存储的原生集成。
- 通过自助服务,简化大型复杂仓库的访问和管理。
- 能提供并行处理、压缩、分区、索引、查询优化和动态资源供应方面的高级功能。
- 最常见的云数仓应用场景包括客户360°分析、基于AI/机器学习 ML 的分析、垂直领域和实时分析的场景。
Forrester 评测领先项(得5分/满分5分) |
给客户带来的价值 |
|
客户将数据湖(Hadoop、云对象存储 OSS)的灵活性、生态丰富与云数据仓库的企业级能力进行融合,可以通过 MaxCompute 湖仓一体方案,DataWorks 数据集成以及对丰富数据类型的支持,并通过 DataWorks 构建数据湖和数据仓库融合的数据开发、管理和数据治理平台。 |
|
客户能享受以下 MaxCompute 的 Share Everything 的架构设计带来的如下好处:
|
|
数据安全无疑是现在企业数据应用的重中之重。MaxCompute 支持多租户的使用场景,通过阿里云账号认证体系对于用户的每一个 HTTP 请求都会进行签名认证,针对不同的用户数据进行数据存储隔离,用户数据被离散存储在分布式文件系统中。可以同时满足多用户协同、数据共享、数据保密和安全的需要,做到真正的多租户资源隔离。同时在网络隔离,鉴权认证,数据安全,传输、存储加密,日志审计等。详情参见安全白皮书 |
|
Forrester 从客户得到认证:证实阿里云拥有一个经过验证的全球技术服务和支持团队,可以满足当前和未来的增长需要,同时拥有最多的资源和专业知识来处理复杂的全球和本土云数仓的实施。客户对阿里云云数仓的技术支持非常满意。 同时,MaxCompute 提供 Pay-as-you-go 计费模式,只对资源(存储、服务器和服务)的使用收费。支持按存储、大小、查询和用户数量粒度定价。可以分别为计算和存储定价。Forrester 从客户侧证实阿里云有最好的计费模式和最好的性价比。 |
以下从技术角度阐述为什么阿里云数仓产品能够支撑上面的满分项:
1. 架构设计:
阿里云数据仓库 MaxCompute 从设计之初采用了“Share Everything”的架构设计。按 Forrester 的说法,这是一个具有前瞻性(future-proof) 的技术架构。它引领了云数仓架构的趋势,并提供了最佳的客户灵活性和开箱即用的解决方案。同时支持 SQL、机器学习\深度学习、图计算等多种计算模式。
除了支持第一方的计算模式外,一个关键区别是 MaxCompute 有一个开放的设计,第三方引擎(如Spark,Presto)也可以接入。在 2019年-2021年,MaxCompute 发展出了湖仓一体的架构设计,通过湖仓一体 MaxCompute 无缝集成云对象存储和 Hadoop 生态。这些帮助我们在 Forrester 技术评比中,在性能、扩展性、数据湖集成 3 项取得最高分(5分),达到世界领先水平。
- 在性能项的评比中,MaxCompute 支撑了相比其它厂商更高每天作业总数
- 在扩展性的评比中,MaxCompute 提供最好的可伸缩性特性,包括:
a) 可以对于任意规模的计算或存储进行接近无限的扩展,且不需要中断或停机支持
b) 可以独立、自动地扩展存储和计算。可支持 EB 级别以上的数据规模。
- 在数据湖集成项评比中:通过湖仓一体架构,无缝集成对象存储(OSS)湖,以及 Hadoop 生态,并通过 DataWorks 提供统一的数据开发、管理、治理平台。
2. 实时性:
- 阿里云数仓通过 DataWorks 数据集成功能,支持三种实时数据集成方式:数据集成流式数据导入、对接 datachub、Kafka 等发布-订阅子系统、 CDC 方式导入。
- 可以流式地将数据输入到 MaxCompute 或 AnalyticsDB 中进行查询。(或通过Flink 处理的实时 BI 场景)
- 支持数据服务场景和在线机器学习(Alink,流式算法包以及深度学习框架 TensorFlow)
3.高性能存储
- AliORC:MaxCompute 采用与开源 ORC 兼容的列式存储格式 AliORC,比开源 ORC 读性能快 50%,同时支持 MaxCompute、机器学习引擎 PAI等。 MaxCompute 团队也是开源 ORC 社区最大的贡献者
- 自动存储分层,通过算法支撑的 4 级自动存储分级,提供更好的读写性能
4.企业级的安全性:
MaxCompute 和 DataWorks 数据安全卫士可以发现和识别敏感数据,并支持静态数据加密,支持tokenization,动态和静态数据 Masking;通过数据质量和 Logview 检查数据质量和漏洞评估,利用阿里云 ActionTrail 提供审计功能。同时数仓内部支持自主访问控制,强制访问控制 (labelSecurity),提供项目、表、行和列级的访问控制。在合规方面支持全球主流的安全标准:ISO 27001, SOC1/2/3, FIPS-140, GxP (21 CFR Part 11), PCI等。详细名单在在白皮书中均有描述。
同时,MaxCompute 除了传统的通过认证和授权的方式共享数据外,我们还观察到了隐私保护的数据共享,甚至是在不受信任的群体之间共享的趋势。通常我们将这种共享需求称为“数据可用不可见”。现在阿里云也正在投资这个领域以及包括基于差分隐私的计算和联合计算在内的技术。
在本次 Forrester 技术评比中:云数仓 MaxCompute 和 DataWorks 的安全能力以及技术前瞻性,取得了最高分(5分),达到世界领先。
5.统一的数据开发、管理治理平台 DataWorks:
MaxCompute 有一个统一的数据部署、治理和管理平台 DataWorks。它支持不同工作负载的数据集成、元数据开发。我们的数据管理可以进一步编排不同的工作负载。例如,客户可以从数据集成、数据清理、特征工程、模型训练、模型服务等方面构建完整的大数据和 AI 通道。
关于云数仓的发展趋势:
随着 IoT 和 5G 技术的不断成熟,设备产生的数据将远超过与人相关的行为数据,同时越来越多的企业也将沉睡的数据湖中的数据唤醒,越来越多的角色也加入到数据分析、机器学习的领域中。这为云数据平台带来新的挑战,云数仓需要:
- 提高平台自服务能力,高度自动化的运维和管理,降低数据仓库、机器学习以及深度学习的使用门槛
- 支持多方数据共享的同时保护数据隐私,数据可用不可见
- 与数据湖的深度集成,统一的开发平台、数据资产管理
总结:
最后引用 Forrester 报告对阿里云数据仓库的总结:阿里云数仓服务提供广泛的基础设施、平台和分析服务,包括 MaxCompute、AnalyticDB 和 DataWorks 服务,以支持各种大规模数据仓库客户案例。虽然阿里云数据仓库服务大部分部署在中国,但 MaxCompute、AnalyticDB 和 DataWorks 在全球 16个国家和地区提供服务,客户涉及金融、互联网、生物医药、能源、交通和媒体行业。阿里云的 MaxCompute、AnalyticDB 和 DataWorks提供实时和 EB 级的能力,以支持任何数据仓库的需求。
最后是来自客户对阿里云数仓产品的评价:
阿里云数仓供多种计算模型、机器学习能力、服务区域、技术支持、商业价值、工具和高端可扩展性。让客户在最常用的场景包括 BI 加速、基于AI/ML 的分析、数据仓库现代化、数据科学以及实时和风险分析领域获得最佳的应用体验。