近期SLS发布了新版告警,新版本告警在升级原有功能的基础上,扩展了告警监控、告警管理、通知(行动)管理的能力,SLS新版告警还支持在控制台将旧版告警一键升级为新版告警。本文首先会介绍新版与旧版在架构、功能和配置上的区别,然后通过一个实例演示如果将旧版告警一键升级为新版告警。
架构对比
新版告警在告警规则任务监控数据、触发通知后,通过告警策略进行降噪、通过行动策略进行渠道分派管理。并支持额外的告警状态管理和告警升级。
旧版告警工作流程
新版告警工作流程
功能对比
新版本对原有旧版本的功能进行了升级,并且新增了很多实用的功能,这里不再详细展开介绍,更详细的功能对比可以参考;
功能升级
- 监控目标:除了支持原来的日志,时序和外部数据源(OSS,MySQL)等,还支持用户直接在SLS创建自定义资源表;
- 触发条件:旧版告警仅支持对查询的集合操作结果任意条数据判断(任一条数据满足即为触发);新版告警支持四种触发条件的判断,既支持对结果中数据进行评估,还支持对结果条数进行评估,及其之间的组合评估;
- 报表关联:旧版告警强制告警必须与仪表盘关联,新版告警取消了报表的强制关联;
- 多库联合查询:旧版告警支持对三张表进行笛卡尔积结果评估,新版告警增加了不合并、拼接、左联、右联、全联合、左斥和右斥等集合操作功能;
功能新增
- 告警监控:增加了数据协同关联监控能力,黑白名单监控,告警严重度,标签,标注,多目标监控,无数据告警和告警恢复,详细可以参考;
- 告警管理:增加了告警降噪控制和告警事件管理;
- 通知管理:支持告警动态分派和级别提升,接收人管理,渠道日历,值班表管理,渠道额度控制,详细可以参考;
- 告警分析:增加了监控规则中心,告警链路中心,告警排障中心。
旧版告警升级流程
旧版告警升级涉及到的配置项的一些变化,主要包含配置项包括监控配置,通知配置,内容模板变量修改。
监控配置
对于新增的监控配置项在升级过程中设置了默认值
通知配置
升级后,日志服务提取手机号、邮箱作为用户标识,并创建对应的用户;提取通知内容作为内容模板的内容;根据通知渠道配置生成对应的行动策略;默认使用SLS内置动态告警策略。
模板变量
新版告警对模板变量进行了优化,并增加了多个更新的变量,参考
旧版告警升级实例
接下来以一个旧版告警为例,在SLS控制台一键升级为新版告警。
基于Nginx访问日志,我们创建一个监控500错误过多的旧版告警,主要监控逻辑是查询过去15分钟内出现500的请求次数是否大于10个,如果大于10个,就发出告警,通知到钉钉机器人和邮件,通知间隔默认设置为5分钟(表示同一条告警每次评估,5分钟内只会收到一次通知)
配置旧版告警
- 监控配置如下:
- 通知配置如下,包括钉钉和邮件通知渠道:
升级
- 点击升级按钮,升级为新版告警
- 如果是首次使用新版告警,请根据页面提示配置存储中心,并单击确认。配置完成后,日志服务将自动在您所选的地域创建一个名为sls-alert-主账号ID-区域的Project和名为internal-alert-center-log的Logstore,用于存储告警相关信息。
- 点击确认后会弹出升级告警涉及到一些配置项,如下;
- 本次升级会增加一个行动策略,内容包含告警触发后的通知渠道设置,包含钉钉和邮件通知;
- 增加一个内容模板,指定在要钉钉和邮件中发送的内容,其中已经自动将旧版告警的内容模板变量升级为新的内容模板变量;
- 增加一个用户,取旧版告警中的短信,语音以及钉钉通知中@人的手机号作为手机用户,取邮件渠道中的邮件地址作为邮件用户,本次升级因为只配置了邮件和钉钉(未指定@手机号),所以会提取邮件地址创建用户。
- 点击确认,新版告警升级成功,重新查询该告警,点击修改配置,可以看到已经升级为新版告警编辑页面
查看升级结果
- 告警规则
- 规则名,检查频率,查询统计等基础信息保持不变
- 分组评估,默认设置为不分组
- 触发条件,更新为有数据匹配+评估表达式,与原有逻辑保持兼容
- 告警严重度,默认设置为中
- 标注,默认增加标题和描述,取值为告警名称
- 告警策略和行动策略,告警策略默认使用内置动态告警;行动策略,会生成了一个新的名称为“行动策略迁移自_Nginx500错误过多”的行动策略;重复等待取自原来的通知间隔时间,逻辑保持兼容
- 行动策略
点击上图中行动策略的查询配置详情,弹出迁移好的行动策略编辑页面,其中原来的通知渠道配置,在该行动策略中被包含在行动组中,这里包含钉钉和邮件两个行动。
- 内容模板
- 点击上图中的钉钉的配置,点击内容模板的查看,可以看到一个名称为“内容模板迁移自_Nginx500错误过多”的内容模板
- 内容模板包括每个通知渠道的发送内容,这里涉及到钉钉和邮件的内容
- 点开钉钉(Webhook)选项卡,可以看到发送内容已经迁移好,并且使用了新的模板变量,也可以点击邮件选项卡,查询邮件内容
- 通知结果对比,以下为钉钉发送通知的对比
这样一个旧版告警升级就完成了,升级过程比较简单,基本实现了“一键升级”,在升级后用户可以通过修改配置使用到新版功能中的新功能,例如可以设置无数据告警和告警恢复通知,还可以对告警进行降噪和事件管理。
参考
进一步参考
- SLS(日志服务)云原生观测分析平台:https://www.aliyun.com/product/sls
- SLS新版告警文档首页:https://help.aliyun.com/document_detail/207609.html
- 欢迎扫群加入阿里云-日志服务(SLS)技术交流
- 后续系列直播与培训视频会同步到B站,敬请留意
最后,如果您还想了解更多智能运维前沿资讯,欢迎您报名参加【数智创新行·智能运维专场】。
6月25日|上海·西岸国际人工智能中心
数智创新行上海站·智能运维专场
阿里云将带来云原生智能运维解决方案,满足海量事件有效感知、高效响应,可观测数据统一分析、故障定位,以及基于AI的异常检测等需求,助力企业构建自己的运维平台,成为开发、运维人员高效可靠的助手。
扫描海报二维码或点击下方链接报名, 期待您一起开启智能运维新时代!
https://www.aliyun.com/page-source//developer/special/osssalon