1. 功能介绍
云平台各个产品的性能总览均需要登录对应的运维工具查看,在提供相关报告与总结时,会耗费较长的时间,性能容量报告提供云平台所有产品的重要指标评估及分析,可以帮助运维快速定位问题,同时可以提供相关性能离线报告,大大减少了运维成本。
1.1 数据来源
封神数据库
1.2 解决问题
①提供全产品性能分析图表,提高问题定位速度;
②提供整个云平台容量分析;
③支持下载离线报告。
2. 开发架构
2.1 架构说明
性能容量报告集成在封神监控系统中,数据来源于封神数据库的监控数据,对性能容量数据进行定时分析打点并记录入库,前端展示与离线报告读取对应数据,以图表可视化形式展示,如下图所示。
图1
2.2 功能特点
- 功能集成在封神系统中,对生产环境无任何影响;
- 分析当前云平台整体运行状况,并给出优化建议;
- 可视化展示各个产品的实例状态,提高运维效率;
- 提供离线的数据报告,及实例性能的全量数据下载。
2.3 功能结构及产品列表
标签页 |
产品 |
概述 |
资源容量,实例/主机数量,告警数量 |
基础 |
天基,ecs,oss,slb,盘古 |
中间件 |
mq,edas,schx |
数据库 |
rds,drds,minirds,ots,ads |
大数据 |
dataworks,odps |
底座 |
docker,ops,otsinner,ftp-server,minirds,slb,vpc |
3. 功能详情
性能容量报告中按照总体概述、基础组件、中间件、数据库、大数据和底座进行展示分类(详见2.3节),主要展示类型有曲线图、柱状图、饼图、热力图和表格形式,并对可视化内容进行分析,给出建议,可以支持时间检索或下载离线报告;
3.1 饼图性能分析
- 图中为ECS产品的整体性能情况,清晰的展示了当前云平台的ECS资源使用情况;
- 单击图中右上角的“搜索”按钮,可以根据所需数据的时间范围进行检索;
- 图中红色文本框为分析建议,大部分ECS性能使用率都在30%以下,可见当前云平台ECS都比较空闲,需要进行适当缩容回收资源。
图2
3.2 曲线性能分析
- 图为云平台各个产品的盘古水位使用情况,可以展示固定时间范围内的盘古水位趋势;
- 如图所示当前云平台盘古水位使用率几乎都未超过30%,不需要进行优化。
图3
3.3 柱状性能分析
- 图为云平台所有docker宿主机的CPU资源数与已分配的CPU资源数对比图;
- 如图所示,当前环境docker宿主机CPU资源超售情况比较严重。
图4
3.4 热力性能分析
- 图为云平台所有docker宿主机的单个CPU使用情况,可以结合图(3-3)进行对比分析;
- 方格中的数字为x轴对应内核的CPU使用率,鼠标悬浮其中一个内核便可以显示对应内核的挂载容器;
- 当运维过程中有CPU迁移工作时可以参考此热力图,选择同组ASW的宿主机进行迁移。
图5
3.5 表格容量分析
- 下图为当前云平台的整体资源使用情况分析;
- 图中展示了全部的资源数量与已使用的资源数量,以及对资源使用的预测。
图6
上述示例是报告中几种典型可视化展示方式,每个云产品都由不同的图表组成,以及对应的分析建议。
我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。