前言
日常工作中,每时每刻都在产生大量重要的数据,数据质量问题也随之而来。如何用最少的人力、最快的速度,自动完成数据质量校验,对于企业节省成本、上层决策应用等起到关键作用。DataWorks的数据质量模块,为您提供全链路的数据质量方案,让数据监控更加简单、高效。
数据质量最基本、也最关键的功能,就是配置监控规则。目前,数据质量支持MaxCompute和EMR两种离线数据源,以及DataHub实时数据源。未来,会陆续支持更多种类的引擎/数据源。本期首先为您介绍离线数据源的监控规则配置方法。
如何配置离线数据的监控规则
1. 选择“引擎/数据源”-->"引擎/数据源实例"-->需要监控的表,点击配置监控规则。
2. 创建分区表达式,目的是定位最新数据,避免全表扫描。系统自带分区表达式的含义如下:
$[yyyymmdd] | 调度日期 |
---|---|
$[yyyymmdd-1] | 业务日期 |
$[yyyymmdd-N] | 前N天 |
$[yyyymm01-1] | 每月1日 |
$[yyyymm01-Nm] | N月前1日 |
$[yyyymmld-1] | 每月最后一天 |
$[yyyymmld-Nm] | N月前最后一天 |
$[yyyymmddhh24miss] | 调度时间 |
$[hh24miss-1/24] | 一个小时前 |
$[hh24miss-30/24/60] | 半个小时前 |
若为非分区表,则表达式如下:
NOTAPARTITIONTABLE
3. 选择某一分区表达式,点击“创建规则”蓝色按钮,出现创建监控规则的右侧拉窗。监控规则分为模板规则和自定义规则两种。
(1)模板规则:数据质量支持43种表级和字段级的内置模板以及9种动态阈值模板,同时还支持用户自建的规则模板库。
注:动态阈值和规则模板库,在后续的高级功能中会为大家详细介绍,敬请期待。本期模板规则是在动态阈值选择“否”的前提下进行演示。
填写说明如下:
规则名称 | 填写规则名称 |
---|---|
强弱 | 强规则阻塞下游,弱规则仅报警 |
动态阈值 | 是否使用动态阈值,进行智能判断 |
规则来源 | 选择使用43种内置模版或自建的规则模板库 |
规则字段 | 选择表级或字段级规则。 |
规则模版 | 选择具体的规则模板。规则模板会根据规则字段的不同而变化 |
比较方式 | 波动率型模板:绝对值、上升、下降 固定值型模板:大于、大于等于、等于、不等于、小于等于、小于 |
校验阈值 | 波动率型模板:橙色阈值、红色阈值 固定值模板:期望值 |
注:强弱规则的橙色报警均不会阻塞下游,必须小于红色阀值,精确到百分比小数点后两位。强规则的红色报警会触发阻塞,必须大于橙色阀值,精确到百分比小数点后两位。
(2)自定义规则:支持用户输入自定义SQL创建监控规则
填写说明如下:
规则名称 | 填写规则名称 |
---|---|
强弱 | 强规则阻塞下游,弱规则仅报警 |
规则字段 | 选择自定义SQL |
采样方式 | 选择自定义SQL |
Set Flag | 输入SQL的前置set语句 |
自定义SQL | 只接收查询语句; 可使用分区表达式变量; 可关联其他表; 可使用UDF |
校验类型 | 分为数值型、波动率型、动态阈值型。选择不同检验类型,比较方式和阈值形式会进行相应变化 |
描述 | 输入对规则的描述,会出现在报警信息中 |
4. 规则内容设置完毕后,点击批量保存,规则即创建成功。
添加规则订阅管理
在监控配置首页,选择某一分区表达式,点击“订阅管理”按钮,可为该分区表达式下的监控规则添加配置订阅信息。订阅方式主要包括邮件、短信、钉钉群(支持@all)三种方式,接受对象范围为该项目下的所有成员。
规则试跑
规则试跑的目的有3种:测试监控规则配置的是否正确;测试订阅发送渠道是否正确;手动运行监控规则。在监控配置首页,选择某一分区表达式,点击“试跑”按钮
监控规则如何关联调度
监控规则和订阅都已经配置完毕、并试跑成功,那如果启动正式的规则校验呢?数据质量采用的是将规则与调度节点关联起来的方式。当该节点开始任务调度时,所关联的所有规则会同时进行校验。
关联调度节点的方式有两种:
1.在数据质量直接进行关联
在某一分区表达式下选择“关联调度”按钮,进行调度节点的绑定
2.在运维中心进行关联
在运维中心--周期任务中,找到希望关联的节点,右键该节点,选择“配置质量监控”
在出现的弹窗中,选择引擎、实例、表名、分区表达式,进行监控规则配置。注意分区表达式不要填错了哦!
查询任务执行结果
节点任务执行后,规则校验也随之被执行。规则校验的结果可以在数据质量的“任务查询”页面中进行查看。每条规则的详细情况可以点击“详情”进行查看。
好啦,本期数据质量“百问百答”就介绍到这里,下一期会为大家介绍实时数据的监控规则配置方法。
DataWorks百问百答历史记录 请点击这里查看>>
更多DataWorks技术和产品信息,欢迎加入【DataWorks钉钉交流群】