从OLAP走向HTAP的全能手,云原生数据仓库AnalyticDB通过信通院双料认证

阿里云云原生数据仓库AnalyticDB,顺利通过了分布式事务型数据库基础能力和性能专项评测。这也是自去年通过了信通院组织的分布式分析型数据库基础能力和性能专项评测后,在事务型领域取得的又一佳绩。AnalyticDB也因此成为目前国内唯一一款通过分析型、事务型两类场景的分布式数据库产品,一款真正意义上的HTAP型产品。

1、从OLTP/OLAP走向HTAP

在传统数据使用场景中,通常可划分为两个领域:联机事务处理(简称:OLTP)和联机实时分析(简称:OLAP)。前者是事件驱动、面向应用的。其特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作的快速响应。例如银行类、电子商务类的交易系统就是典型的OLTP系统。

后者OLAP是面向数据分析的,也称为面向信息分析处理过程。它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。其特征是应对海量数据,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。例如数据仓库是其典型的OLAP系统。两者简单对比如下:
从OLAP走向HTAP的全能手,云原生数据仓库AnalyticDB通过信通院双料认证

面对上述复杂多变场景,是由单一平台还是多平台来处理呢?一般来说,专有系统性能更好,因此应采用多平台模式。但随着近年来软硬件技术发展和需求变化,未来整合的趋势更为明显。通用化集成数据平台将能满足绝大多数用户的场景,只有极少数企业需要专有系统来实现其特殊需求。

对于融合联机事务处理和联机实时分析的平台方案具备下面优点:

通过数据整合避免信息孤岛,便于共享和统一数据管理。

基于SQL的数据集成平台可提供良好的数据独立性,使应用能专注于业务逻辑,不用关心数据的底层操作细节。

集成数据平台能提供更好的实时性和更全的数据,为业务提供更快更准的分析和决策。

能够避免各种系统之间的胶合,企业总体技术架构简单,不需要复杂的数据导入/导出等,易于管理和维护。

便于人才培养和知识共享,无须为各种专有系统培养开发、运维和管理人才。

针对上面的融合趋势,HTAP的概念近些年来火热起来。HTAP数据库(Hybrid Transaction and Analytical Process,混合事务和分析处理),是2014年Gartner的一份报告中使用混合事务分析处理(HTAP)一词描述新型的应用程序框架,以打破OLTP和OLAP之间的隔阂,既可以应用于事务型数据库场景,亦可以应用于分析型数据库场景。

这种架构具有显而易见的优势:避免繁琐且昂贵的ETL操作,还可更快地对最新数据分析。这种快速分析数据的能力将成为未来企业的核心竞争力之一。
从OLAP走向HTAP的全能手,云原生数据仓库AnalyticDB通过信通院双料认证

2、AnalyticDB产品介绍

此次通过事务型、分析型双料认证的产品—云原生数据仓库AnalyticDB,正是一款真正意义上的HTAP产品。产品本身基于PostgreSQL内核构建的分布式数据库,支持ANSI SQL , 兼容部分Oracle语法,支持存储过程、触发器、用户自定义函数UDF等丰富语法功能,其水平扩展架构,即支持高吞吐的分布式事务处理,也支持高性能的复杂查询分析,是阿里云提供的高性能分布式HTAP数据库。

作为一款分布式数据库产品,扩展能力尤为重要。AnalyticDB产品至今还保持着国内分布式数据库大规模评测最高纪录(640节点)。在性能表现上,除通过信通院分布式相关性能评测外,AnalyticDB还于上月通过标准TPC组织的TPC-H 30TB 评测认证,取得性能第一的佳绩,成为国内首个通过国际 TPC-H 认证的产品。

云原生数据仓库AnalyticDB,经过多年积累完善趋于成熟,已服务于阿里经济体及众多外部企业用户,涵盖金融、*、零售、互联网、教育等数百家客户。

从OLAP走向HTAP的全能手,云原生数据仓库AnalyticDB通过信通院双料认证

AnalyticDB PostgreSQL版基于PostgreSQL内核,分为Master协调节点和Segment数据节点。Master 负责SQL的解析和优化,并生成分布式执行计划,发送给segment节点并行执行。Master上可分为一个Main Master和多个Secondary Master,其接受客户端请求,并进行SQL的解析和优化。

同时Main Master构建了GTM全局事务管理模块,维护全局统一的事务ID和当前活跃事务列表,从而实现严格的SERIALIZABLE、READ COMMITTED 隔离级别 ,保证各个节点间事务的强一致性。Master节点含有Cascade架构SQL优化器,将RBO和CBO统一结合,同时可自动优化改写关联子查询等复杂SQL语句,实现计算按最优的分布式计划执行,规避复杂SQL的手工调优改写。

计算节点 Segment可水平扩展,支持多副本存储。表支持按行或者按列进行数据存储。当面向交易场景时,行存储提供高吞吐的事务处理能力,面向分析场景时,列存储及多种索引机制等,提供高性能的聚合分析,以及数据高压缩比。此外在既有PostgreSQL的计算引擎基础上,开发了全新的高性能向量化计算引擎laser。

此外,AnalyticDB PostgreSQL版在既有PostgreSQL的计算引擎基础上,开发了全新的高性能向量化计算引擎laser。通过算法设计,消除了传统引擎火山模型、碎片化内存分配、冗余逻辑等带来的性能问题,将CPU资源用于核心计算;采用LLVM进行自动代码生成(CodeGen),提升表达式计算性能、精简计算逻辑,实现逻辑计算完美“瘦身”;同时充分利用新硬件特性,采用了CPU的SIMD等新技术,最大提升计算性能。

3、写在最后

HTAP,作为近两年颇为火爆的概念,已经逐渐从一个理论概念逐步走向具体产品。以阿里云AnalyticDB通过双料认证为代表,这一技术已逐步成熟走向商用。相信,在不久的将来,将有更多的客户可以从HTAP上收益,将企业内数据使用提升到新的高度。

了解“全能手”云原生数据仓库AnalyticDB更多精彩详情

上一篇:蚂蚁金服大规模微服务架构下的Service Mesh探索之路


下一篇:知识产权平台“权大师”获超亿元B轮融资,布局行业全链条服务智能化