DataWorks作为飞天大数据平台操作系统,是阿里巴巴自主研发的全域智能大数据研发平台,涵盖了数据集成、数据开发、数据治理、数据安全、数据服务、应用开发、机器学习等大数据研发模块。
DataWorks支撑阿里巴巴经济体99%数据业务建设和治理,每天数万名数据开发和算法开发工程师在使用。
DataWorks已支持MaxCompute、Flink、Hologres、GraphCompute、ADB for PostgreSQL等多种计算引擎,2020年4月3日DataWorks正式支持阿里云E-MapReduce(以下简称EMR)。DataWorks常用的数据开发模块均已支持EMR引擎,欢迎选购DataWorks专业版进行体验!
4月3日:发布成都region、深圳region
4月7日:国内外其他region拉平
重磅预告:数据保护伞也即将支持EMR引擎,预计于4月8日发布上线。
一. DataWorks工作空间支持绑定emr引擎
您购买EMR集群资源后,可以在DataWorks管控台或工作空间管理中绑定对应的EMR计算引擎。
方式1:DataWorks管控台
在创建工作空间时,直接关联EMR引擎
方式2:DataWorks工作空间管理
在数据开发页面,点击工作空间管理,在工作空间配置里添加引擎信息
二. DataWorks支持配置多种存储数据源等同步任务,满足emr数据存储需求
DataWorks支持HBase、Hive、HDFS等多种数据源的同步任务,满足您的存储需求。
三. DataWorks支持多种EMR节点类型
目前已支持EMR HIVE、EMR
MR、EMR SPARK SQL、EMR SPARK、EMR SHELL、EMR SPARK SHELL、EMR PRESTO SQL节点。丰富的节点类型,满足您日常数据开发的需求
四. DataWorks支持EMR节点的调度及运维
已提交的EMR节点任务,可以在运维中心中查看节点详情和实例运行情况等
五. DataWorks支持EMR元数据采集、数据发现与管理
数据地图模块提供EMR元数据采集功能;开启元数据采集后,DataWorks将会同步获取到EMR集群的数据信息。
在数据地图中可以搜索并查看到EMR表详情。
六. DataWorks支持EMR节点的数据质量监控
开启EMR元数据采集后,可以在数据质量模块中获取到EMR引擎及其包含的数据表信息,对EMR数据表配置数据质量监控规则。