性能高1倍，价格低3/4！数据库实时同步新选择！

2022-05-24 15:11:36

2020年双11，云原生实时数仓首次在阿里巴巴双11核心数据场景落地，实现商业全链路实时化，毫秒级海量数据处理能力。搜索推荐业务数据开发效率提升4倍，菜鸟物流包裹数据链路从小时级优化到3分钟，考拉分钟及小时业务1分钟内完成，实时数据仓库的建设在瞬息万变的市场竞争中成为了标品！
DataWorks独享数据集成资源组（支持实时同步）首月5折>>

实时同步-实时数仓第一步

实时数仓的建设，第一步就需要将数据同步到大数据计算引擎，一般客户的RDS/MySQL业务数据库在实际生产中都是实时不停的进行着数据变化，如何及时将这些数据同步到数据仓库中是一个难题，同时实际上，只有极少数客户的RDS业务数据库是全新建立的，对接数据仓库时只需要进行实时同步。他们大多数都有历史既有的数据，只有在这些数据上云之后的实时数据变更才有业务意义。

传统实时同步方式的困难点

传统的实现方式是客户先手工建立离线全量数据同步任务，并进行完成历史全量数据的搬迁。此后再进行手工建立实时同步任务。但是一般客户都是有非常多的数据库，每个库中有非常多的表，对这些表逐个建立离线和实时同步任务，是一个很繁琐和容易出错遗漏的过程。同时实时同步任务启动的时机也难以把握，尤其是对于没有关键字段做主键去重时，提前启动容易造成数据重复，滞后启动容易造成数据遗漏。

DataWorks数据集成实时同步高效解决方案

DataWorks数据集成提供了 “RDS/MySQL一键实时同步至MaxCompute” 的解决方案，可以将RDS/MySQL中的数据库，通过一次性的简单配置，全增量一体化同步到MaxCompute中，自动实现先全量数据迁移，然后实时增量保持更新。并支持对于实时同步到MaxCompute的数据，按照指定分区自动建立和Base表的merge任务并执行。整套流程完全自动化，无需人工干预，用户只需关注最终的业务结果表即可。

实时同步性能与性价比

DataWorks数据集成采用自研高性能引擎，在相同的机器规格情况下，RDS实时同步性能最高为 其他数据同步方案的2倍 ，而 价格只有其4分之1 。以一台24核48G内存的机器举例，DataWorks数据集成RDS实时同步最大QPS为3.5万，比其他数据同步方案 QPS高1倍 ，可以运行18条实时同步链路，而这个规格的机器，每月仅需3000元（以杭州的为例）。
详见：《独享数据集成资源组性能和计费标准》

实时同步功能优势

针对RDS/MySQL可以整库全部表或者部分表、批量的大规模导入MaxCompute与Hologres
历史存量数据自动化全量导入，目的MaxCompute、Hologres表可以自动建立，也可以使用已有，支持精细化配置。
实时最新数据在全量同步后自动启动导入，保证数据既不重复也不丢失。
白屏化简单配置整个方案，轻松几步向导即可完成。
支持整个方案级别的运维管控，更高level来操盘，避免繁琐的底层运维。

操作步骤

准备DataWorks环境
- 开通DataWorks专业版+MaxCompute按量付费。
- 在DataWorks上完成创建业务流程，本例使用DataWorks简单模式。详情请参见创建业务流程。
准备RDS/MySQL环境
- 将RDS/MySQL的binlog功能打开
具体操作步骤请参考《实时同步数据至MaxCompute》《实时同步数据至Hologres》
实时同步到MaxCompute之后，实时数据仓库建设可以参考DataWorks官网、MaxCompute官网。