在日常运维过程中,需要监测一些关键性的数据或者功能的使用情况。搭建一套完整的预警平台需要耗费较多资源,对于业务需求经常变动的场景并不合适。使用阿里云日志服务以及钉钉机器人,则可以快速搭建出一套预警功能,满足业务部门需求。
- 创建Logstore,对接日志数据
阿里云日志服务对接的方式很多,基本可以满足大部分生产环境的需求。如果是基于docker的微服务架构,则直接使用docker标准输出即可。这部分不详细说明,不清楚可以参考 - 检索需要预警的消息。
例如希望将系统的异常错误及时提醒出来,则通过 * and ERROR 先将异常错误信息检索出来。 - 定义告警
下面的设置为每一分钟请求一次,只要content中包含error即触发警告。
- 钉钉机器人配置
选择要通知的钉钉群,通过群设置->群机器人->自定义机器人,设置后获取到webhook地址:
- 将webhook地址设置到告警中
在创建告警的通知页面,输入钉钉的webhook地址,提交后告警即会生效。日志中发现error错误后,一分钟内会向指定的钉钉群发送如下的告警消息。
通过上述日志调整以及简单的设置,就可以搭建一套灵活的告警功能,满足业务部门的需求。