使用Prometheus监控Linux系统各项指标

首先在Linux系统上安装一个探测器node explorer, 下载地址https://prometheus.io/docs/guides/node-exporter/

这个探测器会定期将linux系统的各项硬件指标和内核参数通过9100端口和url metrics暴露给外部。

使用Prometheus监控Linux系统各项指标

启动node explorer,显示在9100端口上监听:

使用Prometheus监控Linux系统各项指标

浏览器里输入hostname:9100/metrics就可以访问到node explorer收集到的各项参数:

使用Prometheus监控Linux系统各项指标

一些例子:

CPU在不同工作模式下的使用时间:node_cpu_seconds_total

使用Prometheus监控Linux系统各项指标

文件系统可用字节数:node_filesystem_avail_bytes

使用Prometheus监控Linux系统各项指标

网卡收到的字节数:node_network_receive_bytes_total

使用Prometheus监控Linux系统各项指标

下面用Prometheus来收集和展示通过node explorer暴露出来的数据。

在Prometheus安装目录的prometheus.yml文件里定义一个job,指向Linux系统上运行的node explorer:

使用Prometheus监控Linux系统各项指标

本地启动Prometheus,打开下面的url:
http://localhost:9090/
输入node_cpu_seconds_total{mode="system"},查询该服务器上所有CPU工作在系统态消耗的时间:

使用Prometheus监控Linux系统各项指标

还可以指定时间窗口,只查询过去1分钟之内的CPU运行数据:
rate(node_cpu_seconds_total{mode="system"}[1m])

使用Prometheus监控Linux系统各项指标

本文来自云栖社区合作伙伴“汪子熙”,了解相关信息可以关注微信公众号"汪子熙"。

上一篇:阿里云容器Kubernetes监控(六) - 使用eventer与npd实时告警节点异常


下一篇:阿里云在应用扩缩容下遇到的挑战与选型思考