SLS旧版本告警概述
日志服务支持为查询或分析结果设置告警。设置告警后,日志服务定期检查查询或分析结果,当检查结果满足预设条件时发送告警通知,实现实时的服务状态监控。
在旧版本的告警中,告警规则以及通知的配置都很简单直观,但是也存在着一些痛点,主要如下:
- 通知配置无法复用。例如手机号、邮箱、Webhook或者钉钉机器人的地址、通知内容等信息。假如多个告警需要发给相同的人,发送相同的通知内容,就需要将用户联系方式以及通知内容配置多次,带来了很多额外的配置负担。
- 通知功能相对较弱,不支持动态的通知策略。例如:
- 多人值班
- 根据是否工作时间选择不同的通知渠道或者通知给不同的人
- 根据告警本身属性(例如严重度等)通知到不同的人
- 容易产生告警风暴。例如某个服务接口挂掉,那么所有依赖该服务的其它服务都可能报错触发告警,此时就会产生大量的通知,但是无法进行聚合和过滤。
- 缺少一些更高级、更灵活的编排功能。
- 等等…
SLS新版本告警概述
为了解决上述种种存在的痛点,我们对SLS的告警功能进行了升级,提供了更加强大的功能。可以完美解决以上的一些痛点。例如:
- 高级、灵活的编排机制(告警策略)
- 告警路由合并:避免告警风暴
- 告警抑制:处理告警之间的互相影响
- 告警静默:预期内告警可以不发通知
- 通知基础资源管理
- 用户管理:手机号、邮箱的复用
- 用户组管理:管理一组用户
- 值班组管理:提供动态灵活的值班机制
- 日历管理:支持工作时间配置以及国际化时区
- 内容模板管理:可以复用通知内容
- 通知管理(行动策略)
- 通过什么渠道:短信、电话、邮件、钉钉、Webhook、阿里云消息中心
- 发送给谁:选择用户、用户组或者值班组
- 发送什么内容:选择内容模板
- 其它配置:例如发送时段(是否是工作时间)、钉钉机器人是否要@某个用户、等等
完整的介绍可以参考 什么是日志服务告警,整体的功能架构参考如下:
本文主要讲解其中告警管理和通知管理部分内容。
告警管理流程
通常来说,如果要快速了解一个事物,那么从整体上了解它的脉络和结构,然后再逐部分细化深究,会起到不错的效果。因为为了了解SLS新版本告警的处理流程,我们需要先从整体上来看一下,告警触发后,究竟经历了什么。
在这个过程中,我们只需要牢记两个东西即可:告警策略、行动策略。其它一切都是围绕着这两种策略来进行的。整体上的流程如下图所示:
简而言之,告警策略就是对告警进行编排管理,行动策略是处理如何通知的问题。这么想的话,事情就变得简单起来,也就是说,当告警出发后,需要先决定哪些告警要发,然后再决定要发给谁,最后就是用户收到了通知。
其中告警策略通过路由合并、抑制和静默机制,不仅解决了哪些告警要发送的问题,同时对它们进行了合并,从而可以达到批量发送通知的效果,避免用户同一时间收到大量的通知。而行动策略不仅解决了复用的问题,还提供了更强大的动态发送机制。
为了达到告警策略和行动策略的强大且灵活的特性,我们提供了一套可视化图的方式来进行配置,从而可以很直观地进行各种条件相关的配置。
到此为止,我们可以总结一下:
- 告警管理的核心就是告警策略和行动策略
- 告警策略和行动策略,都是基于可视化交互表单的方式来进行配置
关于它们的具体使用和配置,我们会在接下来的文章中进行详细的介绍。
最后,如果您还想了解更多智能运维前沿资讯,欢迎您报名参加【数智创新行·智能运维专场】。
6月25日|上海·西岸国际人工智能中心
数智创新行上海站·智能运维专场
阿里云将带来云原生智能运维解决方案,满足海量事件有效感知、高效响应,可观测数据统一分析、故障定位,以及基于AI的异常检测等需求,助力企业构建自己的运维平台,成为开发、运维人员高效可靠的助手。
扫描海报二维码或点击下方链接报名, 期待您一起开启智能运维新时代!
https://www.aliyun.com/page-source//developer/special/osssalon