李飞飞,阿里巴巴集团副总裁,ACM杰出科学家,阿里云数据库产品事业部负责人,达摩院数据库与存储实验室负责人。
一 云原生:从小池塘到江河大海
云原生数据库在海外被称为「Cloud-Native Database Systems」,前面译成中文就是「云原生」,理解云原生先要理解两个关键词——「云」和「原生」。
在传统数据库的系统架构下,必须是紧耦合的设计方式,才能最大效能地发挥系统的优势。举个生活中的例子,过去每家每户会根据用水量打一口水井使用,这与传统的数据库系统使用计算、存储资源的方式一样,但它是紧耦合的方式。如果水不够了怎么办?对应的,这就是传统数据库系统里经常提到的业务扩容。在金融行业,数据库系统扩容通常需要提前几个月甚至半年去做规划,进而细致部署、缜密实施,上线——灰度——再验证,一整套流程就是为了扩容、缩容。传统扩容过程非常漫长,而业务高峰过后缩容也很痛苦,往往会造成极大的资源浪费,也很难应对业务层需要的快速变化能力,这是传统架构非常大的弊端之一。
如果清楚这些概念和背景就很好理解云原生了。「云」就是使用虚拟化的技术将资源池化。水是资源,不用紧耦合的方式来部署和使用,不用家家户户打水井,而是整个村庄联合起来“打”一个湖或池塘,再修管道连到各家各户,这就是资源池化。资源池化以后可以做到按需按量使用,弹性调度,甚至还可以将资源进行解耦,比如,将厨房当作一个计算节点,水当作存储节点,可以随时切换,如果这个厨房不够了,通过系统调度,可以快速拉起另外两三个厨房做计算。这就是云原生核心逻辑,将不同类型资源解耦,并进行池化。让原来的一口口独立水井,在背后合并成一个看不见的江河湖海。具体的,比如在云原生的计算存储分离架构下,业务节点可以根据需要*地对计算、存储进行快速的扩缩容等操作。
可以看到,云原生带来的本质性变化就像水井和池塘,随着池塘不断变大,越来越多应用迁移上云,池塘不再是池塘,而变成了江河大海。云原生带来的最大技术红利以及经济红利就是规模化应用后带来边际成本下降效应,因此向云原生技术演进的趋势自然发生并且非常清晰,无论用公共云还是专有云私有化部署。这个边际成本下降效应体现在产品上,客户就会因此受益,TCO也一定会下降。
二 数据库的未来:云原生+分布式
全球知名咨询公司Gartner指出,云将主导数据库市场的未来,到2022年,75%的数据库将被部署或迁移至云平台,只有25%的数据库会在本地运行。云化无疑代表了未来,企业如何在云原生架构下使用数据库,就成为必须要思考的问题的。
随着企业业务全面向数字化、在线化、智能化演进,企业面临着呈指数级递增的海量存储需求和挑战,业务有更多的热点和突发流量带来的挑战,企业需要降本增效,进行更智能的数据决策,传统的商业数据库已经难以满足和响应快速增长的业务诉求。
在架构创新上,我们将云原生与分布式结合起来,全新的云原生分布式架构的数据库具备了高扩展性、易用性、迭代快速、成本降低等特点,可以很好的帮助企业解决上述问题。未来数据库也将全面进入云原生加分布式的时代。具体来讲:
1 高扩展性
云原生分布式数据库与底层的云计算基础设施分离,所以能够灵活及时调动资源进行扩容缩容,以从容应对流量激增带来的压力,以及流量低谷期因资源过剩造成的浪费。生态兼容的特点,也让云原生数据库具备很强的可迁移性。
2 易用性云原生分布式数据库非常易于使用,它的计算节点在云端部署,可以随时随地从多前端访问。因其集群部署在云上,通过自动化的容灾与高可用能力,单点失败对服务的影响非常小。当需要升级或更换服务时,还可以对节点进行不中断服务的轮转升级。
3 快速迭代云原生分布式数据库中的各项服务之间相互独立,个别服务的更新不会对其他部分产生影响。此外,云原生的研发测试和运维工具高度自动化,也就可以实现更加敏捷的更新与迭代。
4 节约成本建立数据中心是一项独立而完备的工程,需要大量的硬件投资以及管理和维护数据中心的专业运维人员。此外,持续运维会造成很大的财务压力。云原生分布式数据库以较低的前期成本,获得一个可扩展的数据库,实现更优化的资源分配。
三 “大数据与数据库系统的一体化”新时代
目前,数据库领域有几大核心发展趋势,除了上述提及的云原生和分布式技术的融合,还有大数据与数据库一体化,包括HTAP以及离在线一体化;智能化技术深度融合,即自感知+自决策+自恢复+自优化;Multi-Model多模;软硬件一体化,充分发挥新硬件的优势;安全可信技术,即可验证日志、数据隐私保护与安全多方计算+全链路加密。
在数据分析领域,企业亟需高效解决海量数据深度计算分析,下一代数据分析演进方向应该是“以云原生为基础,离在线一体化技术融合,实现数据库大数据一体化”。“数据库大数据一体化”的云原生数据分析系统能够很好的提供弹性扩展、海量存储、多种计算及低成本等能力,有效解决海量数据深度计算分析的业务分析和创新诉求。
“数据库大数据一体化”也是业界近年的发展趋势。Gartner “There is only one DBMS Market”报告指出,过去根据业务场景按照分析型和交易型需求,需要独立发展OPDBMS(事务处理)和DMSA(管理与分析),而未来分析型和交易型数据操作对技术架构依赖性会更小,将不再需要独立区分OPDBMS和DMSA,通过一体化的数据处理技术即可满足大多诉求。
从技术架构演进过程来看,2003至2006年,Google发布了关于Google File System、MapReduce和BigTable三篇海量数据存储、处理技术论文,奠定了今天大数据的整个技术生态圈的基石。2012年至今,随着云计算的发展,云计算的资源池化、存储与计算弹性扩展等基础设施升级,以及计算存储分离、在离线一体化等技术创新,促进了数据处理开始朝一份数据开放计算、存储计算分离的云原生方向演进,诞生了如Snowflake、AWS Redshift、AWS Aurora、AWS Athena为代表的新一代云原生数据库、数据仓库、数据湖,加速了数据处理向在线化、在离线一体化、结构化与非结构融合处理演进,加速业务走向数字化、数智化创新的新形态。
综上所述,我认为“数据库大数据一体化”的数据分析系统应具备几个特点:云原生;一份存储多种计算;海量存储,支持结构化、半结构化及非结构化数据库的存储及计算;全面兼容数据库生态。
四 云原生时代,中国数据库的历史新机遇
在刚刚过去的2020年,Gartner公布了年度全球数据库魔力象限评估结果,Gartner将OPDBMS(事务性关系型数据库)与DMSA(大数据管理与分析)合二为一成为新的Cloud DBMS Market(统一的云数据库系统市场),故这次的评比更加全面,也代表了“云”的发展趋势。阿里云挺进全球数据库第一阵营——领导者象限,这是中国数据库历史上重大突破,也是中国在基础软件行业首次成为Gartner魔力象限的全球领导者,代表着中国技术正日益走向国际舞台,并日渐成为这个舞台中的佼佼者。正如Gartner分析师所说:“阿里云拥有丰富的数据库种类和完善的产品布局,为用户提供多种关系型、分析型和非关系型数据库产品,还提供混合云环境部署,同时集成备份、数据迁移与同步等能力,最重要的是,阿里云有非常强大的技术实力与创新能力。”
在OLTP领域,阿里云提供核心的云托管数据库服务RDS,以及云原生关系型数据库 PolarDB以及分布式版PolarDB-X。阿里云RDS具备智能化、安全可信、简易运维、高可用、高性价比等多种特性。PolarDB是国内首个云原生关系型数据库,也是国内首个基于存储与计算分离架构云原生数据库,已全面应用于零售、电信、物流、金融等多个行业;PolarDB-X基于云原生分布式一体化架构设计,可支撑千万级并发规模及百PB级海量存储,在阿里巴巴线上核心系统广泛使用,连续多年稳定支撑天猫双11,在1秒钟内系统负载增加了145倍情况下依然保持稳定。在OLAP领域,阿里云推出了新一代云原生数据仓库AnalyticDB以及云原生数据湖分析Data Lake Analytics;AnalyticDB是新一代云原生数据仓库,获得了TPC-DS/TPC-H官方认证的优异成绩,支撑国税、邮政、上海城市大脑等超大规模客户。在NoSQL领域,阿里云推出了云原生多模数据库Lindorm和云原生内存数据库Tair。除此之外,我们还构建了企业级数据库生态工具产品体系,以及云原生智能化数据库管控平台。
阿里云正在构建一个日益完整的云原生数据库产品体系,让客户在这个生态体系中用数据库的方法解决诸多数据处理、存储分析、计算所面临的挑战和问题,这不仅是阿里云数据库的基本出发点,也是客户学习曲线最低,应用成本最低的一种方案。未来,我们会始终坚持以客户需求为核心,从客户视角出发,坚持客户第一、创造客户价值,将更多研发力量投入到解决客户痛点的产品上,让技术创造新商业。