X-Pack Spark 监控指标详解

概述

本文主要介绍X-Pack Spark集群监控指标的查看方法。Spark集群对接了Ganglia和云监控。下面分别介绍两者的使用方法。

Ganglia

Ganglia是一个分布式监控系统。

Ganglia 入口

打开Spark集群依次进入:数据库连接>UI访问>详细监控UI>Ganglia。如下图:
X-Pack Spark 监控指标详解
注意:打开之前请先阅读UI访问说明

Ganglia 界面介绍

本只做常用的介绍。如下图:
X-Pack Spark 监控指标详解

  1. 导航栏
    选择不同的功能查看,本文主要介绍常用的“Main”
  2. 时间选择
    选择查看不同的时间段的资源使用情况。
  3. 统计信息
    统计信息主要列出集群的资源总体使用情况。每个字段解释如下表:
名称 解释
CPUs Total 集群的CPU总数
Hosts up 集群的总节点数:正在运行的节点
Hosts down 集群的总节点数:停止运行的节点
Current Load Avg (15, 5, 1m) 15分钟、5分钟和1分钟内各自的Load 平均值

注意:这里有两个统计信息:MyGrid Grid 和 spark_cluster。spark_cluster 是MyGrid的子集,由于只有一个spark集群所以这里MyGrid Grid和spark_cluster是一样的,只需要看MyGrid Grid即可。

  1. 图展示区
    图展示区有4个图分别为:
名称 解释
MyGrid Grid Load last hour 最近一小时Load的趋势图
MyGrid Grid Memory last hour 最近一小时Memory的趋势图
MyGrid Grid CPU last hour 最近一小时CPU的趋势图
MyGrid Grid Network last hour 最近一小时网络的趋势图

分别点击每个图,可以看到更详细的信息。例如点击“MyGrid Grid Memory last hour”,如下图:
X-Pack Spark 监控指标详解

云监控

云监控入口

打开Spark集群依次进入:监控与报警>跳转至云监控。如下图:
X-Pack Spark 监控指标详解

云监控界面介绍

进入云监控后看到如下界面:
X-Pack Spark 监控指标详解

  1. 时间选择
    选择查看不同的时间段的资源使用情况。
  2. 指标分组

    1. 系统指标:用于展示Spark集群的负载、CPU、网络、磁盘空间的使用率趋势图。
    2. HBase指标:用于统计HBase集群的指标,Spark集群不用查看。
    3. 分析集群指标:用于展示Spark Yarn任务的失败次数、完成次数、Pending次数、kill次数的趋势图;以及可用内存和可用Vcore的趋势图。
  3. 图标图例
    每个图例代表Spark集群节点的机器名称,本实例的Spark集群有4个节点,名称分别为:spark-master1-1、spark-master2-1、spark-master3-1和spark-core-1。

小结

本文介绍了X-Pack Spark监控的入门使用。关于Ganglia的详细介绍可以参考Ganglia的官网。X-Pack Spark的使用请参考:X-Pack Spark

上一篇:阿里云NoSQL X-Pack如何做到在线存储及计算一体?


下一篇:一条推特里,用280个字符编程!全球首个云端8位计算机,树莓派创始人玩得很开心