监控指南之zabbix监控

本文来自于51CTO学习分享。
讲一个人的工作场景:面试被问到,你平时是怎么做运维工作的?不假思索,脱口而出的就是:监控。
运维界的铁律之一就是:无监控,不运维。工作中网站挂了,客服电话都爆了,你做运维的还说,我这里不知道怎么回事呀?那老板一定会砍死你的。
废话不多说,开始讲监控工具zabbix。

一、zabbix工作的架构

Zabbix是一个企业级的分布式开源监控解决方案。它能够监控各种服务器的健康性、网络的稳定性以及各种应用系统的可靠性。当监控出现异常时,Zabbix通过灵活的告警策略,可以为任何事件配置基于邮件、短信、微信等告警机制。而这所有的一切,都可以通过Zabbix提供的Web界面进行配置和操作,基于Web 的前端页面还提供了出色的报告和数据可视化功能。
这些功能和特性使运维人员可以非常轻松的搭建一套功能强大的运维监控管理平台。

1.1.zabbix应用组件

1、 Zabbix Server

Zabbix Server是Zabbix的核心组件,是所有配置信息、统计信息和操作数据的核心存储器。也就是我们常说的监控采集器。负责被监控客户端的信息收发的报告和信息,同时,所有配置、统计数据及配置操作数据均由其组织进行。

2、Zabbix Database Storage

主要用于存储数据,所有配置信息和Zabbix收集到的 数据都被存储在数据库中。常用的存储设备有MySQL. Oracle. SQLite 等.

3、 Zabbix Web 界面
这是Zabbix提供的友好交互接口,通常(但不一定)与Zabbix Server运行在同一台物理机器上。

4、Zabbix Proxy代理服务器

这是一个可选组件,常用于分布监控环境中,代理Server可以替Zabbix Server收集性能和可用性数据,汇总后统一发往Zabbix Server端。

5、Zabbix Agent监控代理

Zabbix Agent部署在被监控主机上,能够主动监控本地资源和应用程序,并负责收集数据发往Zabbix Server端或Zabbix Proxy端。

1.2、zabbix服务进程

根据功能和用途,默认情况下zabbix包含5个进程, 分别是 zabbix_agentd、 zabbix_get、 zabbix_proxy、zabbix_sender、zabbix_server,另外还有一个zabbix_java_gateway是可选的功能,需要另外安装。

下面分别介绍下它们各自的作用。
1、zabbix_agentd
zabbix_agentd是Zabbix Agent监控代理端守护进程多此进程收集客户端数据)例如cpu负载、内存、硬盘、网络使用情况等。

2、zabbix_get
zabbix提供的一个工具,通常在Zabbix server或者Zabbix proxy端执行用来获取远程客户端信息,这其实是Zabbix server去Zabbix Agent端拉取数据的过程,此工具主要用来进行用户排错。例如在Zabbix Server端获取不到客户端的监控数据时,可以使用zabbix_get命令测试获取客户端数据来做故障排查。

3、zabbix_sender
zabbix提供的一个工具,用于发送数据结Zabbix server或者Zabbix proxy,这其实是Zabbix Agent端主动推送监控数据到Zabbix Server端的过程,通常用于耗时比较长的检查或者有大量主机(千台以上)需要监控的场景。此时通过主动推送数据到Zabbix serve,可以在很大程度上减轻Zabbix server的压力和负载。

4、zabbix_proxy
Zabbix Proxy的代理守护进程。功能类似Zabbix server,唯一不同的是它只是一个中转站,它需要把收集到的数据提交或者被提交Zabbix server上。

5、zabbix_java_gateway

Zabbix之后引入的一个功能。顾名思义:Java网关,主要用来监控JAVA应用环境,类似zabbix_agentd进程。需要特别注意的是,它只能主动去推送数据,而不能等待zabbix server或者zabbix proxy来拉取数据。它的数据最终会给到zabbix server或者zabbix proxy 上。

6, zabbix_server

Zabbix server是整个Zabbix系统的核心进程。其它进程 zabbix_agentd、zabbix_get、 zabbix_sender、zabbix_proxy、zabbix_java_gateway的数据最终都是提交到Zabbix server来统一进行处理。

1.3、zabbix监控术语

在zabbix监控系统中,有一些常用的术语,这些术语可能和其它监控系统的叫法不同,但含义相同,这里做下简单介绍。
1、主机(host)
表示要监控的一台服务器或者网络设备,可以通过I P或主机名指定。

2、主机组(host group)
主机的逻辑组;它包含主机和模板,但同一个主机组内的主机和模板没有任何直接的关联;主机组通常在给用户或用户组指派监控权限时使用。

3、监控项(item)
表示一个监控的具体对象,例如监控服务器的CPUF载、磁盘空间等、item是zabbix进行数据收集的核心,相对某个监控对象,每个item都由“key”来标识。

4、触发器(trigger)
其实就是一个监控阈值表达式,用于评估某监控对象接收到的数据是否在合理范围内;如果接收的数据大于阈值时,触发器状态将从“OK”转变为“Problem”,当接收到的数据低于阈值时,又转变为“OK”状态。

5、应用集(Applications)
一组监控项组成的逻辑集合。

6、动作(action)
指对于监控中出现的问题事先定义的处理方法,例如:发送通知,何时执行操作、执行的频率等等;

7、报警媒介类型(media)
表示发送通知的手段,告警通知的途径,如Email、短信或者SMS等;

8、模板 (template)
一组可以被应用到一个或多个主机上的实体集合,一个模板通常包含了应用集、监控项、触发器、图形、聚合图形、自动发现规则、Web场景等几个项目;模板可以直接链接到某个主机。

模板是为了实现批量、自动化监控,通常会将具有相同特征的监控项汇总到模板中,然后在主机中直接引用即可,实现快速监控部署。

下期将为大家分享关于安装部署zabbix监控平台的相关博文。

上一篇:监控MySQL数据库的主从状态的shell脚本


下一篇:IP地址自动封与解封的shell脚本