2020年双11,云原生实时数仓首次在阿里巴巴双11核心数据场景落地,实现商业全链路实时化,毫秒级海量数据处理能力。搜索推荐业务数据开发效率提升4倍,菜鸟物流包裹数据链路从小时级优化到3分钟,考拉分钟及小时业务1分钟内完成,实时数据仓库的建设在瞬息万变的市场竞争中成为了标品!
DataWorks独享数据集成资源组(支持实时同步)首月5折>>
实时同步-实时数仓第一步
实时数仓的建设,第一步就需要将数据同步到大数据计算引擎,一般客户的RDS/MySQL业务数据库在实际生产中都是实时不停的进行着数据变化,如何及时将这些数据同步到数据仓库中是一个难题,同时实际上,只有极少数客户的RDS业务数据库是全新建立的,对接数据仓库时只需要进行实时同步。他们大多数都有历史既有的数据,只有在这些数据上云之后的实时数据变更才有业务意义。
传统实时同步方式的困难点
传统的实现方式是客户先手工建立离线全量数据同步任务,并进行完成历史全量数据的搬迁。此后再进行手工建立实时同步任务。但是一般客户都是有非常多的数据库,每个库中有非常多的表,对这些表逐个建立离线和实时同步任务,是一个很繁琐和容易出错遗漏的过程。同时实时同步任务启动的时机也难以把握,尤其是对于没有关键字段做主键去重时,提前启动容易造成数据重复,滞后启动容易造成数据遗漏。
DataWorks数据集成实时同步高效解决方案
DataWorks数据集成提供了 “RDS/MySQL一键实时同步至MaxCompute” 的解决方案,可以将RDS/MySQL中的数据库,通过一次性的简单配置,全增量一体化同步到MaxCompute中,自动实现先全量数据迁移,然后实时增量保持更新。并支持对于实时同步到MaxCompute的数据,按照指定分区自动建立和Base表的merge任务并执行。整套流程完全自动化,无需人工干预,用户只需关注最终的业务结果表即可。
实时同步性能与性价比
DataWorks数据集成采用自研高性能引擎,在相同的机器规格情况下,RDS实时同步性能最高为 其他数据同步方案的2倍 ,而 价格只有其4分之1 。以一台24核48G内存的机器举例,DataWorks数据集成RDS实时同步最大QPS为3.5万,比其他数据同步方案 QPS高1倍 ,可以运行18条实时同步链路,而这个规格的机器,每月仅需3000元(以杭州的为例)。
详见: 《独享数据集成资源组性能和计费标准》
实时同步功能优势
- 针对RDS/MySQL可以整库全部表或者部分表、批量的大规模导入MaxCompute与Hologres
- 历史存量数据自动化全量导入,目的MaxCompute、Hologres表可以自动建立,也可以使用已有,支持精细化配置。
- 实时最新数据在全量同步后自动启动导入,保证数据既不重复也不丢失。
- 白屏化简单配置整个方案,轻松几步向导即可完成。
- 支持整个方案级别的运维管控,更高level来操盘,避免繁琐的底层运维。
操作步骤
- 准备DataWorks环境
- 在DataWorks上完成创建业务流程,本例使用DataWorks简单模式。详情请参见 创建业务流程 。
- 准备RDS/MySQL环境
- 具体操作步骤请参考 《实时同步数据至MaxCompute》 《实时同步数据至Hologres》
实时同步到MaxCompute之后,实时数据仓库建设可以参考DataWorks官网、MaxCompute官网。