6月22日,在2021ACM SIGMOD国际学术会议技术分论坛,华为GaussDB内核首席架构师任阳发表了《华为自研分布式数据库》主题演讲,分享了华为云新一代自研分布式数据库GaussDB的发展和使用现状,介绍了其5大创新技术,以及解读华为云GaussDB最新研究成果论文。
华为GaussDB内核首席架构师任阳现场发表演讲
任阳表示,华为从2007年开始进行数据库内核方面的开发,于2011年启动分布式数据库内核研发,2014年发布商用版本的OLAP分布式数据库,2017年发布商用版本的OLTP分布式数据库,2020年发布基于云服务的GaussDB分布式数据库。历经10+年千锤百炼,华为云GaussDB当前广泛应用于金融、政企以及大企业领域,中国头部的六家*银行,有四家已经选择了GaussDB分布式数据库。在全国范围内目前已经有1000+企业级客户广泛应用华为自研分布式数据库GaussDB。在华为内部,消费者云、流程IT等业务已经大量使用华为自研分布式数据库GaussDB。
华为云GaussDB布局前沿技术,打造5大核心竞争力
基于云化和企业2C业务的快速发展,华为将GaussDB分布式数据库的竞争力定义为五个维度,即高性能、高可用、混合负载、高安全以及易运维能力。
- 高性能:华为云GaussDB在充分利用硬件能力基础上,如鲲鹏处理的多线程、原子指令、智能网卡的计算下推、RDMA的短时延高带宽、SCM的字节寻址持久化能力等,在软件技术领域通过动态编译、向量化引擎、SQL By Pass等能力,提供基于鲲鹏2路服务器150万tpmC,鲲鹏4路服务器230万tpmC,32节点全局强一致的1500万tpmC(基于SQL,非存储过程)能力。
- 高可用:华为云GaussDB提供AZ内、跨AZ以及跨Region等各级的高可用能力。在单AZ内,基于无单点故障的设计,提供RPO=0,RTO < 10秒的高可用能力。在跨AZ场景下,提供同城跨AZ能力以及两地三中心能力,分别提供RPO=0,RTO < 60秒以及RPO < 10秒,RTO分钟级能力。对于有超过2000公里跨Region的需求场景,提供基于全球时钟的全球分布式能力,全局提供强一致性及五个九(999%)的可用性。
- 混合负载:对于企业级数据库来说,混合负载是不可或缺的能力。第一,在实际系统中,很难将客户的实际业务负载区分为纯TP负载或者纯AP负载,例如我们在某银行中碰到的业务基本都是这个状况;第二,业界领先的主流商业数据库都具备混合负载能力。在华为云GaussDB分布式数据库中,我们通过全并行架构以及分布式优化器能力,可以很好地支持复杂查询能力,通过轻量级全局一致性事务协议(也叫GTM Lite)使得系统很好地支持短查询能力,同时系统具备极好的线性扩展性。
- 高安全:云化系统需要在数据流转的整个生命周期中保证客户数据的安全性,其中包括数据传输、数据存储、数据查询以及数据正确性。对于数据传输和数据存储,这个是常规特性,可以通过传输加密和存储加密进行解决,但华为云GaussDB解决了数据查询和数据正确性方面的安全问题,通过密态查询,即在查询状态下数据始终处于加密状态解决数据查询的安全性问题。通过使用追踪链的方式,在多方状况下能够识别被篡改的数据,从而解决数据正确性问题。
- 易运维:华为云GaussDB通过将AI能力引入数据库系统从而大幅度提升管理和运维能力,比如通过自调优,极大解放了DBA枯燥的调优工作,使其更聚焦于业务本身;通过引入索引推荐,帮助客户减少83%的索引冗余,索引占用空间减少70%;同时还使用AI技术重构了优化器、自诊断等一系列数据库核心模块。
结合AI技术实现创新,华为云GaussDB研究论文入选SIGMOD顶会
在SIGMOD2021上,华为云GaussDB研究论文《Learned Cardinality Estimation for Similarity Queries》提出使用DNN进行基数预测,为了解决DNN训练问题,提出了极具创新的模型分割和数据分割解决方法,同时在此基础上提出了使用该方法进行连接操作结果集预测。该方法在BMS、GloVe300、ImageNetde等数据集上取得了很好的效果。
此外,围绕AI-Native数据库主题,华为云GaussDB在SIGMOD 2022、VLDB2022以及ICDE2022上均有对应的投稿论文,基于AI技术,内容覆盖SQL生成、SQL诊断、优化器等方向。通过一系列研究,当前华为云GaussDB已经在该领域进阶到业界领先地位,并在该领域持续创新。值得一提的是,2020年,华为云GaussDB 系列数据库产品入选Gartner数据库魔力象限,其技术实力屡获权威认可。