本文始发于:云栖社区
时间:2020-06-01
原文链接:https://yq.aliyun.com/articles/763123
1.目标定位
1.1背景
- 告警管控平台种类繁多
- 告警出现后未及时发现处理最终导致故障产生
- 专有云监控能力拉起依赖版本升级,操作复杂,迭代慢
- 异常问题和故障的感知力不如客户
1.2目标
- 制定告警数据接入规范
- 实现告警统一集中展示
- 建设多种告警外发通知
- 独立部署、快速迭代
- 告警严重程度区分,提升感知力
1.3定位
图1:TAC定位
2.平台简介
2.1介绍
SRE技术保障平台-盯屏中心(TAC-TAM Alarm Center)是TAM为混合云精心打造的一站式告警运维平台,覆盖混合云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警,提供告警生命周期管理以及报警外发等解决方案。帮助混合云平台快速发现、定位异常问题,协助产品团队促进产品改进。
2.2特点
2.2.1告警汇聚
- 默认集成:云平台、大数据、云实例、站点应用
- 支持扩展:自定义监控
2.2.2报警通道
- 钉钉&本地化钉钉
- 短信服务
- 企业邮箱
- 警务微信
2.3业务服务流程
图2:TAC业务服务流程图
3.主要功能及界面展示
3.1告警盯屏中心
- 实时展示云平台当前所有的告警数据以及列出近7天的产品告警TOP排行, 一目了然告警数据, 提升感知力。
图3:告警盯屏中心界面展示
3.2SRE运维大盘
- 通过指标化,更方便查看产品的健康状况,判断是否有故障;
- 指标项包含:健康率、成功率、转实例、准时率、正常率、运行率、使用率、写成功率、读成功率。
图4:SRE运维大盘界面展示
3.3告警工作台
- 用户可以在平台告警页面上认领新增的待处理告警,线下处理完成后可以在我的告警页面上关闭该告警。
- 当认领了自己不擅长处理的产品告警,可以通过线上转发的方式移交给擅长处理的同学。
- 若出现长期无法处理的告警,在确认无影响的情况下可以选择忽略该告警,避免一直外发造成消息轰炸。
- 自动恢复的告警无需手动认领关闭,在历史告警中可以进行查看。
图5:告警工作台界面展示
3.4事件服务中心
- 打破签字、短信、邮件式古老的运维管理方式,为客户将众多的线下流程移⾄线上,预设相应的管理体系,以线上提交、线上反馈的模式,可以统一管理、追踪闭环、数据存档,为⽇常流程管理工作提供更多解决⽅法,逐步代替线下管理。
图6:事件服务中心界面展示
3.5告警控制策略
- 支持设置自动分派策略,当指定产品出现告警自动认领告警;
- 当天首次出现的告警立即通知,非首次出现的告警遵循1440分钟的静默期后通知;
- 支持控制告警发送时的状态,“发生时”、“认领时”、“关闭时”;
- 支持预约在指定的时间范围内使某一类型的告警进入静默期,告警外发暂时失效;
- 支持对告警推送的告警类型,产品,级别,部门,项目等进行自定义配置。
图7:告警控制策略界面展示
3.6告警推送策略
- 提供用户体系,系统会识别用户的手机号码以及邮箱地址来发送告警;
- 提供钉钉、短信、邮件的外发的webhook,api接口的配置;
- 可以选择的一个或多个告警策略自定义配置推送告警
图8:告警推送策略界面展示
3.7监控网关
- 支持在监控任务页面配置用户关心的网站、机器或某个接口,TAC根据规则进行监控;
- 若现场之前有提供过黑屏化的监控工具,用户可以在注册API页面注册一个APP,根据接口调用规范将监控结果上报至TAC以第三方告警来展示和外发。
图9:监控网关界面展示
3.8钉钉通知
图10:钉钉通知效果展示
4.结语
目前,混合云多数项目已通过TAC实现告警通知功能。有效提高告警处理效率,减少因告警未及时处理导致故障的情况,大幅提高项目运维质量,减少项目人力投入成本。
作者:黄家亮阿里云智能GTS-SRE团队资深技术支持工程师
7年IT从业经验,超3年阿里专有云运维管理经验,现就职于阿里云智能GTS-SRE团队,负责运维开发工作,期间深度参与并负责铜雀、TAM企业服务运营管理平台以及TAC报警中心三个系统从0到1的建设工作,有效提高专有云运维能力和效率。
我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。