开发者学堂课程【DataWorks 使用教程:DataWorks 智能监控模块介绍】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/107/detail/1863
DataWorks 智能监控模块介绍
内容简介:
一、Why 智能监控
二、How 智能监控 works
三、使用方法
四、问题与解答
五、答案揭晓
一、Why 智能监控
(一)DataWorks运维中心
数据运维
l 运维大屏
总览工作空间中任务运行情况,查看图表。
l 任务管理
管理 DataStudio 发布的任务定义。
l 实例管理
管理每天生成的任务实例。
l 监控报警
真正天天用、 天天收,牵动运维同学神经的功能。
(二)常规监控的痛点
1.过程:
Step 1 :确定最终节点的期望产出时间。
Step 2 :推算各节点的报警阈值 *5。
Step 3 :分别配置监控规则 * 5。
2.常规监控的痛点小结
l 多:任务非常的多,用户无法准确地梳理出哪些任务需要监控。
l 繁:任务之间的依赖错综复杂,只知道最重要产出的任务是什么。
l 错:除了最下游任务,中游、上游任务的监控阈值一般不科学。
l 难:上游出错会连带下游一起报警,在以排查问题根因。
3.解决方法
l 基线:只需关注最终数据产出时间。
l 智能:系统后台自动推断沿途任务监控时点事件。
l 事件:基线上游任务异常白动关联受影响基线分析。
l 分析:甘特图性能瓶颈一眼便知。
二、 How 智能监控 works
(一)具体场景:
节点数: 12
产出节点: K
l 设定基线&业务承诺时间
l 反推各任务最晚启动时间
l 识别关键路径
l 关键路径
l 非关键路径
l 非路径
l 根据任务实际运行情况,动态调整关键路径
(二)核心概念1
l 基线:承诺产出的任务节点(天/小时)
l 承诺时间:基线任务需要保障的时间点
l 预警时间:承诺时间的预警余量(最长120min )
l 关键路径:完成基线过程中的最长路径
(三)解决过程
l 事件报警:
2018 年 11 月 27 日x:xx:xx
节点任务xxxxx出错,负责人: xxx
影响基线: xxxxxx
XXXXXX
XXXXXX
(1)基线路径(包含关键&非关键路径),上的任务出错,即触发事件报警。
(2)基线关键路径上的任务相对历史记录变慢,也会触发事件报警。
l 基线预警:
2018年11月27日XX:XX:XX
基线xxx预警,余量: -10min,负责人:XXXXXXX
当前任务: XXXX负责人: XXXXXX
根据当前时刻与关键路径运行状态推算,预警、破线及被暂停状态的基线会触发预警。
(四)核心概念2
l 事件监控范围:只有基线路径上的任务才会被纳入基线监控范围(包括关键路径与非关键路径)。
l 基线事件:事件监控范围中的任务出错与变慢。
l 基线预警:不论任何原因,基线的预计完成时间超出预警时间。
l 基线破线:不论任何原因,基线的预计完成时间超出承诺时间。
三、使用方法
(一)基线管理
基线的创建、查询、修改、开关。
*仅主账号可以开关基线
l 天基线针对天任务,小时基线针对小时任务。
l 基线可以包含多个任务。
l 单所有任务需处于同一工作空间。
l 优先级:
n MaxCompute 后付费用户: 1。
n MaxCompute 预付费用户: 1、3、5、7、8 数值越高优先级越高。
l 预计完成时间:根据近 15 天运行情况预测。
l 优先级影响资源争抢时的分配策略。
l 简单模式小时基线:统设定每个周期的承诺时长运会全理程定云服务商。
l 高级模式小时基线:分别设定每个周期的承诺时间。
(二)基线实例
基线实例的查看、处理。
*仅未完成且处于预警、破线状态的基线可以处理。
l 甘特图查看基线关键路径。
(三)事件管理
查看事件详情。
(四)规则管理
全局报警规则、自定义报警规则的创建、修改、开关。
*仅主账号和规则创建人可以修改、开关。
(五)报警信息
报警信息查看
(六)使用流程
四、问题与解答
智能监控FAQ
问:基线中添加任务有何限制?
答:天基线中只能添加天任务,小时基线中智能添加小时任务。同时同一基线中的任务必须来自同工作空间。
问:为何我没有配任何基线和规则,却收到了告警?
答:是因为下游任务配直了基线!这样你的任务也会被纳人事件监控范围,如果任务出错或变慢,一样可能收到报警。同时,也有可能是有其他同学将你手动指定为接收人用。
问:基线的监控范围可以跨工作空间吗?
答:可以。只要在基线上游,同租户内的其他工作空间中的任务,一样会被纳入监控范围。
问:跨天任务如何监控?
答:基线实例的监控时效为 48 小时,自定义监控的监控时效目前为 24 小时(未来计划扩展至 48 小时)。
问:基线的预警余量有何作用?设定有何限制?
答:通过预警余量,可以提前收到基线预警,给故障处理留足时间。
问:超时规则和未完成规则的区别?
答:超市规则设定相对时间,未完成规则设定绝对时刻。
问:智能监控可否与自建的监控系统对接,通过自建系统完成报警的二次处理或二次分发?
答:是可以的。智能监控支持通过 webhook 方式发送报警,webhook 办议参照钉钉自定义机器人( ht:/pen;doc dingtalk.com/docs/doc htm?treeld= :257&aricleld= 105735&docType=1 )。
五、答案揭晓
问:什么情况下,收到了事件报警,却不会收到基线预警(不破线) ?
答:尽管发生了事件,但处理及时,还是赶上了承诺时间。
问:什么情况下,收到了基线预警,却不会收到事件报警?
答:承诺时间或预警余量设置不合理 ,虽然- 切正常 ,但还是预警/破线了。
问:什么情况下,先收到事件报警,再收到基线预警?
答:事件处理不及时,,直接导致基线预警破线。
问:什么情况下,先收到基线预警,再收到事件报警?
答:承诺时间过早,事件来不及产生,不能很好的保障承诺时间。