1. 背景简介
本次最佳实践覆盖以下几个可观测能力功能:
- 容器服务事件中心
- 容器服务报警中心
- 阿里云Prometheus
- JAVA应用性能监控 (ARMS应用监控)
- Kubernetes监控
- 容器服务日志监控 (optional)
- 容器服务Ingress Dashboard (optional)
- ARMS 前端监控 (optional)
optional部分,不在本次workshop中展示,作为课后作业,可自行参考文档实践。
2. 前提条件
本文假设您的 ACK 集群已经创建完成。
子账号权限设置
若您使用的子账号进行本次实践,请为您的子账号添加相关权限:
使用主账号为子账号授权,进入RAM权限管理控制台 (ram.console.aliyun.com)。
在左侧 用户 页面中找到对应的子账号,右侧添加权限。
为此子账号添加权限:
AliyunCSFullAccess (管理容器服务(CS)的权限)
AliyunLogFullAccess (管理日志服务(Log)的权限)
AliyunARMSFullAccess (管理业务实时监控服务(ARMS)的权限)
AliyunCloudMonitorFullAccess (管理云监控 (CloudMonitor)的权限)
主账号为子账号授权集群的资源管理权限 (RBAC)权限:
在容器服务控制台 (cs.console.aliyun.com) 首页,左侧 授权管理,为对应子账号授予集群的管理员权限。
2.1 容器服务事件中心
功能官方文档 (https://help.aliyun.com/document_detail/125679.html)
功能开通步骤:
- 方法1. 购买创建集群时,在第三步 组件配置中,保持默认勾选 安装node-problem-detector并创建事件中心
- 方法2. 若购买集群时未开启,可手动开启。
- 可在容器服务控制台,集群页面,左侧 运维管理 -》 组件管理中安装 ack-node-problem-detector组件,从而手动开启事件中心。
2.2 容器服务报警中心
功能官方文档 (https://help.aliyun.com/document_detail/207725.html)
功能开通步骤:
- 方法1. 购买创建集群时,在第三步 组件配置中,保持默认勾选 使用默认报警模板配置报警,并选择报警通知联系人分组。
- 方法2. 若购买集群时未开启,可手动开启。
- 在目标集群左侧导航栏选择运维管理 > 报警配置配置管理,根据提示安装组件。
- 在报警规则管理页签,打开启动状态可开启对应报警规则集。
- 点击 编辑通知对象 为报警规则集设置通知联系人分组。
2.3 阿里云Prometheus
功能官方文档 (https://help.aliyun.com/document_detail/161304.html)
功能开通步骤:
- 方法1. 购买创建集群时,在第三步 组件配置中,保持默认勾选 使用Prometheus监控服务
- 方法2. 若购买集群时未开启,可手动开启。
- 在集群管理左侧导航栏中,选择运维管理 > Prometheus监控。
- 在Prometheus监控页面中间,单击开始安装。
2.4 JAVA应用监控 (ARMS应用监控)
功能官方文档 (https://help.aliyun.com/document_detail/125726.html)
功能开通步骤:
- 安装arms-pilot组件
- 在ACK控制台,集群页面,左侧 应用-》 Helm中,创建 ack-arms-pilot组件
- (optional)专有版集群需要手动授权,托管集群可自动在安装流程中进行页面授权,如何手动授权请参考文档。
- 在用户的Workload Yaml中打上开启应用监控功能的Annotation
- 以下annotations添加到spec / template / metadata层级下
annotations armsPilotAutoEnable"on" armsPilotCreateAppName"<your-deployment-name>"
- 注意需要先安装arms-pilot组件,再启动你的应用pod,若启动应用pod顺序在前,需要重启pod,有以下两种方法触发重启Pod:
- 可以缩容deployments的replica到0,然后再扩容replica恢复正常,即可实现重启。
- 或可以删除你的应用的pod,即可实现重启。
(本次实践中,安装arms-pilot组件后,请对无状态应用 spring-cloud-a,进行重启Pod操作,从而开启ARMS应用监控。)
2.5 Kubernetes监控
功能官方文档 (https://help.aliyun.com/document_detail/251852.html)
功能开通步骤:
- 本功能依赖 阿里云Prometheus,需先开通阿里云Prometheus
- 在容器服务控制台,集群页面,左侧 应用-》Helm中,安装 ack-arms-cmonitor组件
2.6 容器日志监控 (Optional)
此部分为课后作业,可自行参考文档实践。
功能官方文档 (https://help.aliyun.com/document_detail/86548.html)
2.7 Ingress Dashboard (Optional)
此部分为课后作业,可自行参考文档实践。
功能官方文档 (https://help.aliyun.com/document_detail/195702.html)
2.8 ARMS前端监控 (Optional)
此部分为课后作业,可自行参考文档实践。
功能官方文档 (https://help.aliyun.com/document_detail/106086.html)
3. 操作步骤
3.1 容器服务事件中心
打开容器服务控制台,集群页面中,左侧 运维管理 -》 事件中心,右侧事件总览页面
3.1.1 场景1. 集群事件总览
在上方Tab选择 集群总览 事件,
在右上角的时间范围内,查看事件总数,集群异常事件总数,重要异常是否近期发生。
3.1.2 场景2. 集群核心组件事件
在上方Tab选择 核心组件事件,查看集群核心组件的异常、重要事件。
3.2 容器服务报警中心
3.2.1 场景1. 建立不同身份的联系人组,订阅不同分组的报警规则
在容器服务控制台,集群页面中,左侧 运维管理 -》 报警配置页面中,右上角联系人管理、联系人分组管理中:
- 建立应用管理员1、集群管理员1 两个联系人,以及两个联系人分组:集群管理员组1(包含联系人 集群管理员1)、应用管理员组1(包含联系人 应用管理员1)。
- 在上方 报警规则管理 页面中
- 为Warn事件集、集群节点异常报警规则集,编辑通知对象 -》集群管理员组
- 为集群容器副本异常报警规则集,编辑通知对象 -》 应用管理员组
3.2.2 场景2. 接收报警效果,如容器Pod镜像拉取失败
部署一个镜像会拉取失败的应用 (镜像是错误地址,无法拉取镜像):
在集群页面,工作负载 -》 无状态中,右侧使用YAML创建资源
(选取示例模板中,Resource - basic Deployment模板,并修改一下image为错误image,完整yaml如下):
apiVersion apps/v1 # for versions before 1.8.0 use apps/v1beta1 kind Deployment metadata name nginx-deployment-basic labels app nginx spec replicas2 selector matchLabels app nginx template metadata labels app nginx spec # nodeSelector: # env: test-team containers name nginx # image: nginx:1.7.9 # replace it with your exactly <image_name:tags> image fake-image-not-exist ports containerPort80 resources limits cpu"500m"
稍等1~3分钟,查看报警历史,即可看到此应用的ImagePullBackOff报警历史,同时订阅的联系人组即可收到报警:
3.3 阿里云Prometheus
进入容器服务集群页面,左侧 运维管理 -》 Prometheus监控页面,即可查看集群、应用指标监控数据。
3.3.1 场景1. 查看集群核心组件监控指标
上方大盘列表中,可查看集群核心组件:ApiServer、ETCD、Scheduler、CoreDNS等核心指标。
3.3.2 场景2. 查看Workload、Pod等应用的监控指标
上方大盘列表中,可查看应用Workload(如Deployment)、Pod监控大盘。
可通过查看Deployment大盘、Pod大盘,查看应用: namespace=default,deployment=spring-cloud-a的应用黄金指标(CPU、Memory、NetworkIO),以及Deployment的副本数(Replica)、资源占用(Request)与限制(Limit)等核心指标。
3.3.3 场景3. 通过 Pod TopN、Node TopN找到集群中的资源最大消耗应用
上方大盘列表中,可查看 Pod TopN、Node TopN大盘,分析整个集群中资源消耗最高的Pod。
3.4 JAVA应用监控(ARMS应用监控)
部署测试应用
(参考【基于阿里云微服务引擎 MSE 的全链路灰度实践】https://developer.aliyun.com/article/830851#slide-3)
部署Demo应用程序,已部署可跳过部署应用这一步。
其中 spring-cloud-a 应用已经开启了ARMS应用监控,此应用的Deployment Yaml如下:
(已部署Demo应用即可跳过此步骤,若未部署请重新在集群中Apply下面应用Yaml)
# A 应用 base 版本,开启按照机器纬度全链路透传 --- apiVersion apps/v1 kind Deployment metadata labels app spring-cloud-a name spring-cloud-a spec replicas2 selector matchLabels app spring-cloud-a template metadata annotations msePilotCreateAppName spring-cloud-a ahasPilotAutoEnable"on" ahasAppName spring-cloud-a armsPilotAutoEnable"on" armsPilotCreateAppName spring-cloud-a alibabacloud.com/burst-resource eci k8s.aliyun.com/eci-use-specs 4-8Gi labels app spring-cloud-a spec containers env name LANG value C.UTF-8 name JAVA_HOME value /usr/lib/jvm/java-1.8-openjdk/jre name profiler.micro.service.tag.trace.enable value"true" image registry-vpc.cn-beijing.aliyuncs.com/wangtao-mse/spring-cloud-a 0.1-SNAPSHOT imagePullPolicy Always name spring-cloud-a ports containerPort20001 protocol TCP resources requests cpu'4' memory 8Gi livenessProbe tcpSocket port20001 initialDelaySeconds10 periodSeconds30
确保2.4节所述,安装arms-pilot组件后需重启spring-cloud-a应用的Pod。(删除无状态应用 spring-cloud-a 下的所有Pod即可完成重启。)
在容器服务控制台,集群页面,工作负载 -》 无状态中,找到此应用 spring-cloud-a,即可在右侧看到已经开启ARMS应用监控,并可link到对应应用监控页面。
(若应用监控数据因欠费等情况出现停止,可在ARMS应用监控控制台开启应用)
3.4.1 场景1. 通过ARMS应用监控实现Java应用的全链路追踪
在容器服务集群控制台,无状态找到对应应用,右侧跳转到 ARMS应用监控 中:
分别查看:应用总览、应用详情、接口调用视图
在应用总览中,查看此应用的请求详情
在应用详情中,查看应用下各实例(Pod)的流量详情
在接口调用中,查看应用的接口请求情况
3.4.2 场景2. 通过ARMS应用监控、GC情况、应用异常、慢SQL、方法栈
在应用详情 -》JVM监控,可查看应用的GC情况
在接口调用 -》异常分析,可查看应用、接口的异常情况
在接口调用 -》调用链查询中,可以查看调用的详细方法栈
- ARMS应用监控可提供 SQL分析(https://help.aliyun.com/document_detail/201242.html)来分析慢SQL场景;
- 深度剖析线程池(https://help.aliyun.com/document_detail/213051.html)来诊断线程池性能问题,并提供优化;
- 内存快照(https://help.aliyun.com/document_detail/72191.html)来进行快速JAVA Dump;
这几个场景作为课后作业,不在此次课上实践。
3.5 Kubernetes监控
进入ARMS控制台 (arms.console.aliyun.com),进入左侧 Kubernetes监控,选择对应集群
3.5.1 场景1. 使用Kubernetes监控查看全局拓扑与网络流量
在左侧 集群拓扑中,可查看全局、过滤对应应用、服务的全局流量拓扑图。
点击上方 Service视图,查看Service中的流量情况,点击Service图表、以及之间的线条,可查看流量指标详情。
3.5.2 场景2. 使用Kubernetes监控查看 错慢请求分析、DNS解析性能分析、网络流量分析
在Workload视图中,搜索coredns,或在Service视图中搜索kube-dns,点击对应图表,查看DNS解析详情,以及DNS请求错误数。(键盘快捷键 Win + F 或 Mac中 Command + F 搜索dns可快速查看dns资源)
右侧指标详情中,查看错误数中的明细列表,可查看具体DNS解析错误的详细信息。
可见上图所示例子为 mse-pilot-ack-mse-pilot pod组件,解析域名:addr-bj-internal.edas.aliyun.com.cluster.local 时失败。
3.5.3 场景3. 使用Kubernetes监控拨测功能进行连通性分析
内网拨测功能,支持从集群内拨测探活服务端口是否正常。
以集群内已有Service暴露的TCP端口为例:
首先找到集群内测试Service的ClusterIP与映射的Port。
在Kubernetes监控控制台中,内网拨测功能,新建巡检:
添加巡检任务后,等待1~2分钟,即可刷新页面查询状态:
点击检查点link,即可查询巡检实时结果数据。