看云栖说云栖—— 从 DB 到 BD 的桥梁

必须认识到,我国社会主要矛盾的变化,没有改变我们对我国*所处历史阶段的判断,我国仍处于并将长期处于*初级阶段的基本国情没有变,我国是世界最大发展中国家的国际地位没有变。
—— 《十九大报告》

拜软硬件技术的发展所赐,很大一部分想要做“大数据”的用户,现在用阿里云分析型数据库(ADS)其实就已经够用了。
本文内容取自2019年杭州阿里云栖大会《下一代云数据分析专场》。

趋势分析和产品发布,趋势有这些:

  • 市场趋势:2020年全球数据规模约为40zB,2025年要增长430%;2023年,75%的数据库都在云上;2022年新业务将会采用实时分析的比例达到50%
  • 技术趋势:从单机进化到分布式架构;OLTP(在线事务处理)和OLAP(在线数据分析)将融合,HTAP(离线分析和在线数据处理混合负载)成为主流;支持多可用区的大规模扩展、支持极速恢复和复制,数据分析也要云原生;结构化数据和非结构化数据将能够融合分析;云边一体化的数据分析将覆盖边缘计算节点;云分析产品架构从使用传统硬件到使用软硬件一体化的架构

发布了两个产品,其中一个是基于MySQL的AnalyticDB from MySQL 3.0(ADS for MySQL),有这些更新:

  • 云原生架构,基于容器技术
  • MySQL兼容性提升
  • 支持从GB级升级到100PB级
  • 写入性能提升50%、查询性能提升40%。
  • 读写强一致,写入数据立即可见
  • 数据更可靠,支持只读实例,同城容灾。

还有一个是基于PostgresSQL的AnalyticDB for Greenplum 6.0版本(ADS for PostgreSQL),这个产品目前正在公测中,12月30日结束公测并正式商用,这个版本的更新有这些:

  • HTAP混合负载、支持更高并发,更快写入和更新性能,典型 OLTP 场景 TPC-C 达到 10w tpmc;Sysbench 支持 select 15w tps, insert 5w tps,update 2w tps。支持全局死锁检测。
  • 更多新特性、针对数仓中的维度表,通过建立复制表(DISTRIBUTED REPLICATED clause),可以大量减少数据传输,提升查询效率;ZSTD压缩算法,较之前 zlib 压缩算法,提升三倍的压缩和解压性能。

Greenplum 6.0到底有哪些升级?还是由Greenplum的开发者来来说说吧,阿里邀请到了来自Pivotal 的Greenplum 研发总监姚延栋做了《全新的Greenplum 6.0 内核优化解读和7.0展望》的演讲。
Greenplum6.0使用PostgreSQL 9.4内核,主要有以下改善:

  • HTAP性能提升,OLTP的性能提升70倍,支持更多的数据类型和SQL特性(大表关联、分组聚集、窗口函数、JSON),让Greenplum从一个OLAP数据库变成了真正可用的HTAP数据库
  • 全新高可用机制、使用PostgreSQL原生的流复制技术,网络开销低。
  • 弹性、支持在线不停机扩容。
  • 支持和机器学习平台集成、包括MADlib、TensorFlow、提供原生R语言支持。

在客户分享环节,阿里云邀请到了在国内排名第三的手机游戏公司莉莉丝(刀塔传奇的开发商,第一名腾讯、第二名网易)做了名为《利用ADB打造游戏行业新一代实时数据运营平台》的演讲。
莉莉丝原来使用复杂的大数据平台进行数据分析,后来切换到ADS,主要原因是:

  • 快、比POLARDB这种OLTP快10倍以上(OLAP场景),比presto也能快数倍,QPS数百到上万。
  • 灵活、节点和配置都可以随时升降,可以随着数据增长逐步升级。
  • 易用、从presto迁移过来,计划没有任何改动成本,mysql迁移大部分语句兼容。
  • 规模扩展、动态弹性扩容至数千节点,可以支撑我们到达腾讯的量级
  • 高并发、从10万TPS到数百万TPS,都可以支撑。

支持MySQL/PostgreSQL语法、可以快速上手、能支撑一个手游公司的大数据平台达到腾讯的量级,还能兼顾在线事务处理。​我想,大多数公司做大数据,阿里云ADS就够用上好一阵子了吧。

上一篇:看云栖说云栖—— 大数据技术


下一篇:看云栖说云栖 —— 大数据生态