项目简介
某重要总集智慧项目近期因应用发版异常导致无法正常办理业务,引发客户对交付进度和交付质量的担忧,出现客情。混合云SRE混合云技术服务团队紧急投入进行稳定性护航。
项目成果
从转维发版流程、总集管理规范、应用监控、自动化工具等四个维度入手,通过制定总集管理方案、部署自动化告警监控、配置可视化应用监控,丰富应用监控事项,流程线上化工具等夯实云平台稳定性,提高项目组与ISV沟通协作效率,保证线上问题专人跟进闭环管理,进一步提升了平台稳定性和项目交付质量。近期应用发版保障顺利完成,客情得到缓解。主要完成:
- 指导云平台深度巡检,编写云平台应急保障方案,提升云平台健康度,提高应急响应和处置能力
- 整理输出应用转维验收checklist,总集应用运维管理方案、应用运维考核细则等制度,全面覆盖应用开发、架构链路、业务监控和文档建设等方面,加强总集管控,提高应用交付质量
- 部署SRE技术保障平台监控工具,全面实现云平台硬件、产品组件、云产品实例、安全事件、云外网络等方面的监控并实现消息及时推送
- 部署应用监控工具,从端口、URL、SLS日志,API网关接口日志等四个维度进行监控,已在八个应用系统推广试点,还将继续丰富业务CMDB建设,进一步提高应用监控能力。
我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。