阿里的DataWorks

一、概述

  DataWorks数据工场,是MaxComputer的可视化开发平台,一站式开发、管理界面。

  1.功能概述

    1.强大调度:支持分钟到月的调度

    2.多种任务:支持ODPS、SHELL等多种任务

    3.可视化开发:B/S架构的可视化开发界面,简单易上手

  2.基本概念

    1.任务

      0个或多个表作为输入,1个或多个表作为输出。主要分为节点任务、工作流任务、内部节点

    2.实例

      某个任务某个时刻的运行快照

    3.提交

      提交的任务会到调度系统(不提交的不能加入调度系统)

    4.资源和函数

      俗称的JAR、UDF

  以上都可在DataWorks中找到:

    阿里的DataWorks

    // 因版本差异可能不同,此处是在左上

二、基本开发流程

  主要包括:建表上传数据->创建工作流->创建同步任务->创建周期和依赖->运维日志排错

  1.建表上传数据

    在任务开发中新建一个节点任务,写入DDL建表语句,运行即可完成建表,通过找表即可找到新建的表:

    阿里的DataWorks

    // 各个版本DataWorks可能稍有不同

  数据同步任务,将在下节详述

  2.创建工作流

    创建任务时选择工作流任务即可创建工作流:

    阿里的DataWorks

    一般而言会创建一个虚节点用于做控制节点,虚节点对运行数据不产生任何影响,仅用于对下游节点的控制,一般而言,虚节点作为根节点控制整个工作流

  3.创建同步任务

    注意RDS等数据源需要添加白名单等(ECS添加安全组)

    首先需要项目管理员新建数据源:

      新版DataWorks是在数据集成中新建,老板的在项目管理中:

      阿里的DataWorks

 

    新建的数据同步在新版中是数据集成的左上角,老板的需要在新建任务时选择任务类型:

    阿里的DataWorks

    // 底层核心应该是DataX

    简单起见,可以用向导模式,可视化同步数据

  4.配置周期和依赖

    双击打开任务后,在页面右侧点击任务属性即可配置(新版略有不同):

    阿里的DataWorks

    即可配置周期调度以及依赖属性了,当有依赖任务时必须等待上游任务跑完才能执行(即使本身已到运行时间)

  5.运维日志管理

    可以通过运维中心查看任务,右击即可管理查看。

上一篇:DataWorks功能实践速览 05——循环与遍历


下一篇:基于MaxCompute/Dataworks实现数据仓库管理与全链路数据体系