[12.15 workshop] 云原生可观测体系最佳实践-实践手册

2022-05-01 12:44:24

1. 背景简介

本次最佳实践覆盖以下几个可观测能力功能：

容器服务事件中心
容器服务报警中心
阿里云Prometheus
JAVA应用性能监控（ARMS应用监控）
Kubernetes监控
容器服务日志监控（optional）
容器服务Ingress Dashboard （optional）
ARMS 前端监控（optional）

optional部分，不在本次workshop中展示，作为课后作业，可自行参考文档实践。

2. 前提条件

本文假设您的 ACK 集群已经创建完成。

子账号权限设置

若您使用的子账号进行本次实践，请为您的子账号添加相关权限：

使用主账号为子账号授权，进入RAM权限管理控制台（ram.console.aliyun.com）。

在左侧用户页面中找到对应的子账号，右侧添加权限。

[12.15 workshop] 云原生可观测体系最佳实践-实践手册

为此子账号添加权限：

AliyunCSFullAccess （管理容器服务(CS)的权限）

AliyunLogFullAccess (管理日志服务(Log)的权限)

AliyunARMSFullAccess (管理业务实时监控服务(ARMS)的权限)

AliyunCloudMonitorFullAccess (管理云监控 (CloudMonitor)的权限)

[12.15 workshop] 云原生可观测体系最佳实践-实践手册

主账号为子账号授权集群的资源管理权限（RBAC）权限：

在容器服务控制台 (cs.console.aliyun.com) 首页，左侧授权管理，为对应子账号授予集群的管理员权限。

[12.15 workshop] 云原生可观测体系最佳实践-实践手册

2.1 容器服务事件中心

功能官方文档（https://help.aliyun.com/document_detail/125679.html）

功能开通步骤：

方法1. 购买创建集群时，在第三步组件配置中，保持默认勾选安装node-problem-detector并创建事件中心

方法2. 若购买集群时未开启，可手动开启。

- 可在容器服务控制台，集群页面，左侧运维管理 -》组件管理中安装 ack-node-problem-detector组件，从而手动开启事件中心。

2.2 容器服务报警中心

功能官方文档（https://help.aliyun.com/document_detail/207725.html）

功能开通步骤：

方法1. 购买创建集群时，在第三步组件配置中，保持默认勾选使用默认报警模板配置报警，并选择报警通知联系人分组。

方法2. 若购买集群时未开启，可手动开启。

- 在目标集群左侧导航栏选择运维管理 > 报警配置配置管理，根据提示安装组件。
- 在报警规则管理页签，打开启动状态可开启对应报警规则集。
- 点击编辑通知对象为报警规则集设置通知联系人分组。

2.3 阿里云Prometheus

功能官方文档（https://help.aliyun.com/document_detail/161304.html）

功能开通步骤：

方法1. 购买创建集群时，在第三步组件配置中，保持默认勾选使用Prometheus监控服务

方法2. 若购买集群时未开启，可手动开启。

- 在集群管理左侧导航栏中，选择运维管理 > Prometheus监控。
- 在Prometheus监控页面中间，单击开始安装。

2.4 JAVA应用监控（ARMS应用监控）

功能官方文档（https://help.aliyun.com/document_detail/125726.html）

功能开通步骤：

安装arms-pilot组件

- 在ACK控制台，集群页面，左侧应用-》 Helm中，创建 ack-arms-pilot组件

（optional）专有版集群需要手动授权，托管集群可自动在安装流程中进行页面授权，如何手动授权请参考文档。
在用户的Workload Yaml中打上开启应用监控功能的Annotation

- 以下annotations添加到spec / template / metadata层级下

annotations:
  armsPilotAutoEnable: "on"
  armsPilotCreateAppName: "<your-deployment-name>"

注意需要先安装arms-pilot组件，再启动你的应用pod，若启动应用pod顺序在前，需要重启pod，有以下两种方法触发重启Pod：

- 可以缩容deployments的replica到0，然后再扩容replica恢复正常，即可实现重启。
- 或可以删除你的应用的pod，即可实现重启。

（本次实践中，安装arms-pilot组件后，请对无状态应用 spring-cloud-a，进行重启Pod操作，从而开启ARMS应用监控。）

2.5 Kubernetes监控

功能官方文档（https://help.aliyun.com/document_detail/251852.html）

功能开通步骤：

本功能依赖阿里云Prometheus，需先开通阿里云Prometheus
在容器服务控制台，集群页面，左侧应用-》Helm中，安装 ack-arms-cmonitor组件

2.6 容器日志监控 (Optional)

此部分为课后作业，可自行参考文档实践。

功能官方文档（https://help.aliyun.com/document_detail/86548.html）

2.7 Ingress Dashboard （Optional）

此部分为课后作业，可自行参考文档实践。

功能官方文档（https://help.aliyun.com/document_detail/195702.html）

2.8 ARMS前端监控（Optional）

此部分为课后作业，可自行参考文档实践。

功能官方文档（https://help.aliyun.com/document_detail/106086.html）

3. 操作步骤

3.1 容器服务事件中心

打开容器服务控制台，集群页面中，左侧运维管理 -》事件中心，右侧事件总览页面

3.1.1 场景1. 集群事件总览

在上方Tab选择集群总览事件，

在右上角的时间范围内，查看事件总数，集群异常事件总数，重要异常是否近期发生。

3.1.2 场景2. 集群核心组件事件

在上方Tab选择核心组件事件，查看集群核心组件的异常、重要事件。

3.2 容器服务报警中心

3.2.1 场景1. 建立不同身份的联系人组，订阅不同分组的报警规则

在容器服务控制台，集群页面中，左侧运维管理 -》报警配置页面中，右上角联系人管理、联系人分组管理中：

建立应用管理员1、集群管理员1 两个联系人，以及两个联系人分组：集群管理员组1（包含联系人集群管理员1）、应用管理员组1（包含联系人应用管理员1）。

在上方报警规则管理页面中

- 为Warn事件集、集群节点异常报警规则集，编辑通知对象 -》集群管理员组
- 为集群容器副本异常报警规则集，编辑通知对象 -》应用管理员组

3.2.2 场景2. 接收报警效果，如容器Pod镜像拉取失败

部署一个镜像会拉取失败的应用（镜像是错误地址，无法拉取镜像）：

在集群页面，工作负载 -》无状态中，右侧使用YAML创建资源

（选取示例模板中，Resource - basic Deployment模板，并修改一下image为错误image，完整yaml如下）：

apiVersion: apps/v1 # for versions before 1.8.0 use apps/v1beta1
kind: Deployment
metadata:
  name: nginx-deployment-basic
  labels:
    app: nginx
spec:
  replicas: 2
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      labels:
        app: nginx
    spec:
    #  nodeSelector:
    #    env: test-team
      containers:
      - name: nginx
        # image: nginx:1.7.9 # replace it with your exactly <image_name:tags>
        image: fake-image-not-exist
        ports:
        - containerPort: 80
        resources:
          limits:
            cpu: "500m"

稍等1~3分钟，查看报警历史，即可看到此应用的ImagePullBackOff报警历史，同时订阅的联系人组即可收到报警：

3.3 阿里云Prometheus

进入容器服务集群页面，左侧运维管理 -》 Prometheus监控页面，即可查看集群、应用指标监控数据。

3.3.1 场景1. 查看集群核心组件监控指标

上方大盘列表中，可查看集群核心组件：ApiServer、ETCD、Scheduler、CoreDNS等核心指标。

3.3.2 场景2. 查看Workload、Pod等应用的监控指标

上方大盘列表中，可查看应用Workload（如Deployment）、Pod监控大盘。

可通过查看Deployment大盘、Pod大盘，查看应用： namespace=default，deployment=spring-cloud-a的应用黄金指标（CPU、Memory、NetworkIO），以及Deployment的副本数(Replica)、资源占用(Request)与限制(Limit)等核心指标。

3.3.3 场景3. 通过 Pod TopN、Node TopN找到集群中的资源最大消耗应用

上方大盘列表中，可查看 Pod TopN、Node TopN大盘，分析整个集群中资源消耗最高的Pod。

3.4 JAVA应用监控（ARMS应用监控）

部署测试应用

（参考【基于阿里云微服务引擎 MSE 的全链路灰度实践】https://developer.aliyun.com/article/830851#slide-3）

部署Demo应用程序，已部署可跳过部署应用这一步。

其中 spring-cloud-a 应用已经开启了ARMS应用监控，此应用的Deployment Yaml如下：

（已部署Demo应用即可跳过此步骤，若未部署请重新在集群中Apply下面应用Yaml）

# A 应用 base 版本,开启按照机器纬度全链路透传
---
apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: spring-cloud-a
  name: spring-cloud-a
spec:
  replicas: 2
  selector:
    matchLabels:
      app: spring-cloud-a
  template:
    metadata:
      annotations:
        msePilotCreateAppName: spring-cloud-a
        ahasPilotAutoEnable: "on"
        ahasAppName: spring-cloud-a
        armsPilotAutoEnable: "on"
        armsPilotCreateAppName: spring-cloud-a
        alibabacloud.com/burst-resource: eci
        k8s.aliyun.com/eci-use-specs: 4-8Gi
      labels:
        app: spring-cloud-a
    spec:
      containers:
      - env:
        - name: LANG
          value: C.UTF-8
        - name: JAVA_HOME
          value: /usr/lib/jvm/java-1.8-openjdk/jre
        - name: profiler.micro.service.tag.trace.enable
          value: "true"
        image: registry-vpc.cn-beijing.aliyuncs.com/wangtao-mse/spring-cloud-a:0.1-SNAPSHOT
        imagePullPolicy: Always
        name: spring-cloud-a
        ports:
        - containerPort: 20001
          protocol: TCP
        resources:
          requests:
            cpu: '4'
            memory: 8Gi
        livenessProbe:
          tcpSocket:
            port: 20001
          initialDelaySeconds: 10
          periodSeconds: 30