铜雀:阿里云智能巡检管家

本文始发于:云栖社区
时间:2020-06-01
原文链接:https://yq.aliyun.com/articles/763125

作为阿里云云平台告警信息与监控的统一门户,铜雀专注于智能化巡检及问题诊断,是阿里云SRE混合云TAM和驻场服务团队日常工作中的首要工具。它能将TAM和驻场服务团队从日常繁琐的巡检工作中解放出来,将精力投入到更有价值的客户服务中去,通过打通云平台侧、租户侧及应用侧的信息,辅助应用运维及优化,并通过工具化手段提升现场问题分析定位的能力和速度。

1 主要服务及功能

铜雀主要为客户、业务应用开发商、TAM、驻场提供以下服务:

  • 客户:了解云平台的健康状况和资源使用情况,通过对历史发展趋势的分析,发现可能的资源缺口和扩容需求
  • 业务应用开发商:通过铜雀分析可能导致线上应用问题的原因或提供排查方向
  • TAM:通过铜雀发现云平台或业务应用所存在的风险和问题,并跟进处理
  • 驻场:使用铜雀简化日常的运维类工作,并提升工作效率。比如:一键巡检、驻场日报自动生成、白屏化分析工具等

目前铜雀版本已经演进到V3944版本,建议使用企业版专有云V3.6或以上版本的用户都升级到此版本。V2版本现已停止开发,只做维护与支持。不同版本支持的功能点差异如下图所示:
铜雀:阿里云智能巡检管家

图1:铜雀版本功能差异

2 应用场景

铜雀主要有如下一些典型的应用场景。

2.1 驻场巡检

通过将巡检动作标准化、白屏化、自动化,避免了人工巡检操作可能带来的风险,降低了对驻场人员的技能要求,提升了现场人员的工作效率。
铜雀:阿里云智能巡检管家

图2:巡检结果

2.2 线上线下协同

日常巡检结果通过二维码或驻场日报回传,后端诊断分析并推送给客户,使客户实时了解云平台运行情况。

2.3 业务应用分析

以业务应用的角度对系统指标进行分析,发现业务系统存在的问题或瓶颈,辅助应用进行优化及问题排查。

铜雀:阿里云智能巡检管家
图3:业务应用分析

2.4 云平台总览

用户可通过Dashboard页面总览云平台的资源及健康状态。
铜雀:阿里云智能巡检管家

图4:云平台总览

2.5 自动化任务执行

驻场人员可根据各局点的业务特点,灵活定制各种任务的执行时间,从繁复的人肉巡检工作中解脱出来。
铜雀:阿里云智能巡检管家

图5:自动化任务执行

2.6 插件化的升级方式

不依赖专有云大版本的发布周期,可独立实现功能升级,通过系统的快速迭代,满足对运维工作的需求。

2.7 白屏自升级

风险较小,升级操作复杂度更低,相对于黑屏升级可避免很多误操作。

2.8 智能诊断

通过简单快捷的搜索导航,将常用的基础信息整合在一起,结合日常运维高频使用的工具和监控图表,实现对日常问题排查诊断的提效,减少运维人员频繁在多个控制台进行切换,降低黑屏操作风险。

铜雀:阿里云智能巡检管家
图6:智能诊断效果展示

2.9 日志清理

日志清理是在定时任务的基础上,开发的一个基于模板配置的日志清理功能,可基于多种配置策略清理云产品的日志,大大减少日常运维工作中的黑屏手动清理变更数量。

铜雀:阿里云智能巡检管家
图7:日志清理效果展示

铜雀目前作为专有云企业版的标准输出产品,已经能够100%覆盖V3平台的局点。目前铜雀的功能主要是以巡检为中心,后续将逐渐将故障应急、高频变更、问题诊断能力补充上来,并将铜雀的基础能力开放出来,使产品、驻场、TAM等人员的经验不断沉淀到系统中,打造以铜雀为中心的运维生态圈。

作者:刘维

阿里云智能GTS-SRE团队技术服务经理

现就职于阿里云智能GTS-SRE团队,是专有云企业版巡检产品——铜雀的首席研发专家、应用专家、技术专家组成员。具有多年Java开发、调优、排错经验,拥有丰富的运维支持经验,帮助专有云客户解决应用和运维难题。

我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。

铜雀:阿里云智能巡检管家

上一篇:直击痛点,详解 K8s 日志采集最佳实践


下一篇:【最佳实践】简单配置,实现Filebeat多行日志传送