DataWorks百问百答01:数据同步该用什么资源组?

引子

很多用户在使用数据集成建立同步任务时,往往都会困惑一个设置,即“资源组设置”。
大家常有的疑问是“资源组是用来做什么的?跟网络之间什么关系?我该选择那种资源组?”
下面本文给您一个简要的介绍。


什么是资源组

资源组是数据集成用来运行数据同步任务的计算资源,可以通俗的理解为“带有CPU、内存和网络的计算机或计算机集群”。同步任务就是运行在上面的“程序”。所以如果机器性能低或者运行的程序过多,都会导致任务执行效率,而有如果机器的网络不通,那么也会出现连接不到数据源的问题。

对比和推荐

数据集成有三种资源组:公共资源组(又称默认资源组)、独享资源组、自定义资源组。它们适用的场景不同,您在做数据同步时可以根据自己实际的需求来选择。具体请参考下表

公共数据集成资源组 独享数据集成资源组 自定义数据集成资源组*
机器资源归属 DataWorks维护
所有租户竞争使用的共享资源
DataWorks维护
自己租户独享使用的计算资源
客户自己的IDC机器,客户自己维护
DataWorks版本要求 所有版本均支持 所有版本均支持 只有专业版及以上才支持
网络 支持经典网络
支持公网
支持阿里云内产品
支持VPC
支持公网
支持阿里云内产品
支持VPC
支持公网
支持阿里云内产品
收费方式 按任务实例量阶梯计费 按机器规格包年包月计费 DataWorks版本按月使用费
支持数据源 部分数据源 全部数据源 全部数据源
安全性 视客户自身机器环境而定
任务执行效率* 视客户自身机器环境而定
可靠性* 视客户自身机器环境而定
适合场景 适用于做一些非重要、非紧急的少量、零散任务,或者测试性任务。 适合于大量、重要的生产级别任务。 自身已有资源利旧,或者同步的数据源全部都在IDC内
推荐指数 ★★ ★★★★★

任务执行效率:是指任务是否能分到足够的计算资源,能否以最高性能运行。
可靠性:是指任务是否能按时启动,执行时网络资源是否被其他租户所占据,而导致任务不能按时产出结果。
自定义资源组:此处仅指“用于数据集成的自定义资源组”,并不是“用于调度的自定义资源组”。

结论

所以综合来看对于大多数正常需求的用户来说“独享资源组”是最佳选择

DataWorks百问百答历史记录请点击查看

更多DataWorks技术和产品信息,欢迎加入【DataWorks钉钉交流群】

上一篇:DataWorks百问百答07:如何有效组织和管理DataStudio中的节点文件?


下一篇:云原生必备知识:容器