DataWorks智能监控模块介绍|学习笔记

开发者学堂课程【DataWorks 使用教程:DataWorks 智能监控模块介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/107/detail/1863


DataWorks 智能监控模块介绍


内容简介:

一、Why 智能监控

二、How 智能监控 works

三、使用方法

四、问题与解答

五、答案揭晓

 

一、Why 智能监控

(一)DataWorks运维中心

数据运维

运维大屏

总览工作空间中任务运行情况,查看图表

任务管理

管理 DataStudio 发布的任务定义

实例管理

管理每天生成的任务实例

监控报警

真正天天用、 天天收,牵动运维同学神经的功能。

(二)常规监控的痛点

1.过程:

Step 1 :确定最终节点的期望产出时间

Step 2 :推算各节点的报警阈值 *5

Step 3 :分别配置监控规则 * 5

2.常规监控的痛点小结

多:任务非常的多,用户无法准确地梳理出哪些任务需要监控。

繁:任务之间的依赖错综复杂,只知道最重要产出的任务是什么。

错:除了最下游任务,中游、上游任务的监控阈值一般不科学。

难:上游出错会连带下游一起报警,在以排查问题根因。

3.解决方法

基线:只需关注最终数据产出时间。

智能:系统后台自动推断沿途任务监控时点事件。

事件:基线上游任务异常白动关联受影响基线分析。

分析:甘特图性能瓶颈一眼便知。

 

二、 How 智能监控 works

(一)具体场景:

节点数: 12

产出节点: K

设定基线&业务承诺时间

反推各任务最晚启动时间

识别关键路径

关键路径

非关键路径

非路径

根据任务实际运行情况,动态调整关键路径

(二)核心概念1

基线:承诺产出的任务节点(天/小时)

承诺时间:基线任务需要保障的时间点

预警时间:承诺时间的预警余量(最长120min )

关键路径:完成基线过程中的最长路径

(三)解决过程

事件报警:

2018 年 11 月 27 日x:xx:xx

节点任务xxxxx出错,负责人: xxx

影响基线:  xxxxxx

XXXXXX

XXXXXX

(1)基线路径(包含关键&非关键路径)上的任务出错,即触发事件报警

(2)基线关键路径上的任务相对历史记录变慢,也会触发事件报警。

基线预警:

2018年11月27日XX:XX:XX

基线xxx预警,余量: -10min,负责人:XXXXXXX

当前任务: XXXX负责人: XXXXXX

根据当前时刻与关键路径运行状态推算,预警、破线及被暂停状态的基线会触发预警。

(四)核心概念2

事件监控范围:只有基线路径上的任务才会被纳入基线监控范围(包括关键路径与非关键路径)。

基线事件:事件监控范围中的任务出错与变慢。

基线预警:不论任何原因,基线的预计完成时间超出预警时间。

基线破线:不论任何原因,基线的预计完成时间超出承诺时间。

 

三、使用方法

(一)基线管理

基线的创建、查询、修改、开关。

*仅主账号可以开关基线

天基线针对天任务,小时基线针对小时任务

基线可以包含多个任务

单所有任务需处于同一工作空间

优先级:

MaxCompute 后付费用户: 1

MaxCompute 预付费用户: 1、3、5、7、8 数值越高优先级越高

预计完成时间:根据近 15 天运行情况预测

优先级影响资源争抢时的分配策略

简单模式小时基线:统设定每个周期的承诺时长运会全理程定云服务商。

高级模式小时基线:分别设定每个周期的承诺时间。

(二)基线实例

基线实例的查看、处理。

*仅未完成且处于预警、破线状态的基线可以处理。

甘特图查看基线关键路径。

(三)事件管理

查看事件详情。

(四)规则管理

全局报警规则、自定义报警规则的创建、修改、开关

*仅主账号和规则创建人可以修改、开关

(五)报警信息

报警信息查看

(六)使用流程

DataWorks智能监控模块介绍|学习笔记


四、问题与解答

智能监控FAQ

问:基线中添加任务有何限制?

答:天基线中只能添加天任务,小时基线中智能添加小时任务。同时同一基线中的任务必须来自同工作空间。

问:为何我没有配任何基线和规则,却收到了告警?

答:是因为下游任务配直了基线!这样你的任务也会被纳人事件监控范围,如果任务出错或变慢,一样可能收到报警。同时,也有可能是有其他同学将你手动指定为接收人用。

问:基线的监控范围可以跨工作空间吗?

答:可以。只要在基线上游,同租户内的其他工作空间中的任务,一样会被纳入监控范围。

问:跨天任务如何监控?

答:基线实例的监控时效为 48 小时,自定义监控的监控时效目前为 24 小时(未来计划扩展至 48 小时)。

问:基线的预警余量有何作用?设定有何限制?

答:通过预警余量,可以提前收到基线预警,给故障处理留足时间。

问:超时规则和未完成规则的区别?

答:超市规则设定相对时间,未完成规则设定绝对时刻。

问:智能监控可否与自建的监控系统对接,通过自建系统完成报警的二次处理或二次分发?

答:是可以的。智能监控支持通过 webhook 方式发送报警,webhook 办议参照钉钉自定义机器人( ht:/pen;doc dingtalk.com/docs/doc htm?treeld= :257&aricleld= 105735&docType=1 )。


五、答案揭晓

问:什么情况下,收到了事件报警,却不会收到基线预警(不破线) ?

答:尽管发生了事件,但处理及时,还是赶上了承诺时间。

问:什么情况下,收到了基线预警,却不会收到事件报警?

答:承诺时间或预警余量设置不合理 ,虽然- 切正常 ,但还是预警/破线了。

问:什么情况下,先收到事件报警,再收到基线预警?

答:事件处理不及时,,直接导致基线预警破线。

问:什么情况下,先收到基线预警,再收到事件报警?

答:承诺时间过早,事件来不及产生,不能很好的保障承诺时间。

上一篇:日志服务数据如何同步到 MaxCompute |学习笔记


下一篇:2019北美KubeCon+CloudNativeCon上的K8S五大趋势