DataWorks百问百答63:DataWorks如何进行离线数据质量监控?

前言

 日常工作中,每时每刻都在产生大量重要的数据,数据质量问题也随之而来。如何用最少的人力、最快的速度,自动完成数据质量校验,对于企业节省成本、上层决策应用等起到关键作用。DataWorks的数据质量模块,为您提供全链路的数据质量方案,让数据监控更加简单、高效。
   数据质量最基本、也最关键的功能,就是配置监控规则。目前,数据质量支持MaxCompute和EMR两种离线数据源,以及DataHub实时数据源。未来,会陆续支持更多种类的引擎/数据源。本期首先为您介绍离线数据源的监控规则配置方法。

如何配置离线数据的监控规则

1. 选择“引擎/数据源”-->"引擎/数据源实例"-->需要监控的表,点击配置监控规则。

2. 创建分区表达式,目的是定位最新数据,避免全表扫描。系统自带分区表达式的含义如下:

$[yyyymmdd] 调度日期
$[yyyymmdd-1] 业务日期
$[yyyymmdd-N] 前N天
$[yyyymm01-1] 每月1日
$[yyyymm01-Nm] N月前1日
$[yyyymmld-1] 每月最后一天
$[yyyymmld-Nm] N月前最后一天
$[yyyymmddhh24miss] 调度时间
$[hh24miss-1/24] 一个小时前
$[hh24miss-30/24/60] 半个小时前

若为非分区表,则表达式如下:
NOTAPARTITIONTABLE

3. 选择某一分区表达式,点击“创建规则”蓝色按钮,出现创建监控规则的右侧拉窗。监控规则分为模板规则和自定义规则两种。

(1)模板规则:数据质量支持43种表级和字段级的内置模板以及9种动态阈值模板,同时还支持用户自建的规则模板库。
注:动态阈值和规则模板库,在后续的高级功能中会为大家详细介绍,敬请期待。本期模板规则是在动态阈值选择“否”的前提下进行演示。
DataWorks百问百答63:DataWorks如何进行离线数据质量监控?

填写说明如下:

规则名称 填写规则名称
强弱 强规则阻塞下游,弱规则仅报警
动态阈值 是否使用动态阈值,进行智能判断
规则来源 选择使用43种内置模版或自建的规则模板库
规则字段 选择表级或字段级规则。
规则模版 选择具体的规则模板。规则模板会根据规则字段的不同而变化
比较方式 波动率型模板:绝对值、上升、下降
固定值型模板:大于、大于等于、等于、不等于、小于等于、小于
校验阈值 波动率型模板:橙色阈值、红色阈值
固定值模板:期望值

注:强弱规则的橙色报警均不会阻塞下游,必须小于红色阀值,精确到百分比小数点后两位。强规则的红色报警会触发阻塞,必须大于橙色阀值,精确到百分比小数点后两位。

(2)自定义规则:支持用户输入自定义SQL创建监控规则
DataWorks百问百答63:DataWorks如何进行离线数据质量监控?

填写说明如下:

规则名称 填写规则名称
强弱 强规则阻塞下游,弱规则仅报警
规则字段 选择自定义SQL
采样方式 选择自定义SQL
Set Flag 输入SQL的前置set语句
自定义SQL 只接收查询语句;
可使用分区表达式变量;
可关联其他表;
可使用UDF
校验类型 分为数值型、波动率型、动态阈值型。选择不同检验类型,比较方式和阈值形式会进行相应变化
描述 输入对规则的描述,会出现在报警信息中

4. 规则内容设置完毕后,点击批量保存,规则即创建成功。

添加规则订阅管理

在监控配置首页,选择某一分区表达式,点击“订阅管理”按钮,可为该分区表达式下的监控规则添加配置订阅信息。订阅方式主要包括邮件、短信、钉钉群(支持@all)三种方式,接受对象范围为该项目下的所有成员。
DataWorks百问百答63:DataWorks如何进行离线数据质量监控?

规则试跑

规则试跑的目的有3种:测试监控规则配置的是否正确;测试订阅发送渠道是否正确;手动运行监控规则。在监控配置首页,选择某一分区表达式,点击“试跑”按钮
DataWorks百问百答63:DataWorks如何进行离线数据质量监控?

监控规则如何关联调度

监控规则和订阅都已经配置完毕、并试跑成功,那如果启动正式的规则校验呢?数据质量采用的是将规则与调度节点关联起来的方式。当该节点开始任务调度时,所关联的所有规则会同时进行校验。
关联调度节点的方式有两种:
1.在数据质量直接进行关联
在某一分区表达式下选择“关联调度”按钮,进行调度节点的绑定
DataWorks百问百答63:DataWorks如何进行离线数据质量监控?
2.在运维中心进行关联
在运维中心--周期任务中,找到希望关联的节点,右键该节点,选择“配置质量监控”
DataWorks百问百答63:DataWorks如何进行离线数据质量监控?

在出现的弹窗中,选择引擎、实例、表名、分区表达式,进行监控规则配置。注意分区表达式不要填错了哦!
DataWorks百问百答63:DataWorks如何进行离线数据质量监控?

查询任务执行结果

节点任务执行后,规则校验也随之被执行。规则校验的结果可以在数据质量的“任务查询”页面中进行查看。每条规则的详细情况可以点击“详情”进行查看。
DataWorks百问百答63:DataWorks如何进行离线数据质量监控?


好啦,本期数据质量“百问百答”就介绍到这里,下一期会为大家介绍实时数据的监控规则配置方法。

DataWorks百问百答历史记录 请点击这里查看>>

更多DataWorks技术和产品信息,欢迎加入【DataWorks钉钉交流群】

上一篇:VirturalBox中搭建CentOS开发环境实录(一)


下一篇:利用makefile文件编译c++源文件