十分钟搭建基于日志服务和钉钉机器人的预警功能

在日常运维过程中,需要监测一些关键性的数据或者功能的使用情况。搭建一套完整的预警平台需要耗费较多资源,对于业务需求经常变动的场景并不合适。使用阿里云日志服务以及钉钉机器人,则可以快速搭建出一套预警功能,满足业务部门需求。

  1. 创建Logstore,对接日志数据
    阿里云日志服务对接的方式很多,基本可以满足大部分生产环境的需求。如果是基于docker的微服务架构,则直接使用docker标准输出即可。这部分不详细说明,不清楚可以参考
  2. 检索需要预警的消息。
    例如希望将系统的异常错误及时提醒出来,则通过 * and ERROR 先将异常错误信息检索出来。
  3. 定义告警
    下面的设置为每一分钟请求一次,只要content中包含error即触发警告。

十分钟搭建基于日志服务和钉钉机器人的预警功能

  1. 钉钉机器人配置
    选择要通知的钉钉群,通过群设置->群机器人->自定义机器人,设置后获取到webhook地址:

十分钟搭建基于日志服务和钉钉机器人的预警功能

  1. 将webhook地址设置到告警中
    在创建告警的通知页面,输入钉钉的webhook地址,提交后告警即会生效。日志中发现error错误后,一分钟内会向指定的钉钉群发送如下的告警消息。

十分钟搭建基于日志服务和钉钉机器人的预警功能

通过上述日志调整以及简单的设置,就可以搭建一套灵活的告警功能,满足业务部门的需求。

上一篇:法国新规定:非工作时段不能给员工发邮件


下一篇:损失惨重!数据中心失火,360 万个网站下线,Rust 游戏 25 台服务器数据永久丢失