主播:邢晓燕
非常感谢各位运维团队的同仁能够莅临我们的直播间,共同参与分享关于“监控易”这款综合性监控平台软件的深入探讨。今天,我们将聚焦于监控易平台的监控多样性、其核心原理,以及日常运维中常用的监控协议。
一、监控易平台概述
监控易,作为一款集实时监控、智能告警、数据分析、资产管理及工单处理等多功能于一体的综合性监控解决方案,广泛适用于IT运维、网络安全、工业生产及智能制造等多个领域。其分布式架构、秒级监控能力,以及国产化的特点,使得监控易成为众多企业信赖的监控软件。
二、监控原理与协议
-
监控原理:
监控易平台通过实时采集被监控对象的各项数据,利用智能算法进行数据分析,从而实现对网络、系统、应用等全方位、多层次的监控。当检测到异常或故障时,平台会立即触发告警机制,通知相关人员进行处理,确保运维工作的及时性和有效性。 -
监控协议:
监控协议是监控易平台与被监控设备之间通信的基础。常见的监控协议包括SNMP、SIMP、HTDP及HTDPS等。这些协议共同构成了网络监控和管理的基础框架。监控易平台在监控设备时,会基于这些开源的网络协议进行拓展,以满足不同设备和场景的监控需求。
三、SNMP协议详解
以SNMP协议为例,其适用设备范围广泛,包括Windows操作系统、三通s系统、交换机、路由器、光纤交换机、硬件设备(如防火墙、IDS、DOS、IPS等安全设备,以及负载均衡设备、存储设备等)。
- 可扩展性:SNMP协议具有强大的可扩展性。监控易平台内置了多种监控项,但如果这些内置监控项无法满足特定业务需求,用户可以通过自定义OID的方式,新增监测项。操作简便,只需在平台页面添加监测点,并输入相应的OID值、名称、描述、单位等信息,即可完成监测指标的新增。
- 安全性:关于监控的安全性,用户无需担忧。以SNMP协议为例,其提供了三种基本操作:set、get和trap。在监控过程中,监控易平台仅使用get操作来读取管理对象的值(即OID对应的值),而不会执行修改设备配置或控制设备运行状态的set操作。因此,监控过程是完全安全的,不会对被监控设备造成任何影响。
- 告警事件处理:当被监控设备产生告警事件时,会通过trap操作将事件发送给监控易平台。平台会利用日志管理功能展示事件的生成时间、设备类型、ID描述等信息。同时,监控易还提供了trap字典功能,将常见的OID进行自定义描述,方便用户理解告警事件的具体含义。用户还可以根据事件的重要程度设置告警级别和事件名称,确保关键事件能够得到及时响应和处理。
四、操作系统监控
对于操作系统的监控,监控易平台提供了多种方式。以Windows系统为例,平台可以通过自带的agent进行监控,也可以通过WMI协议进行数据采集。不过需要注意的是,WMI协议的安全性相对较低,因此一般不推荐使用。对于Linux系统,平台同样支持agent监控,并且还可以通过SSH、Telnet等远程连接协议进行监控。
五、硬件监控
在硬件监控方面,除了之前提到的SNMP协议外,监控易平台还支持IPMI和Redfish两种协议。
-
IPMI协议:
IPMI(Intelligent Platform Management Interface)协议是一种用于监控服务器硬件层面的协议。它可以监控风扇转速、温湿度、电压电流等硬件状态。然而,IPMI协议存在连接不稳定、容易出现连接超时和结果返回不完全的问题。 -
Redfish协议:
针对IPMI协议的不足,监控易平台引入了Redfish协议。Redfish协议连接稳定,分类展示清晰,能够更有效地监控服务器硬件状态。它不仅提供了硬件状态的实时监控,还能够获取配置参数,并且具有较高的安全性。通过Redfish协议,用户可以更清晰地了解服务器硬件的运行状况,为故障排查和运维决策提供了有力支持。
六、应用监控
对于应用层的监控,监控易平台主要依赖于GMX协议。GMX(Java Management Extensions)协议是针对Java应用的一种监控协议。通过GMX协议,平台可以监控Java应用程序的业务指标,如中间件的连接数、会话情况、系统服务信息、端口信息等。此外,GMX协议还能够监控到不同中间件的特定指标,如Kafka的消费情况、请求情况以及资源占用情况等。
七、数据库监控
在数据库监控方面,监控易平台主要通过ODBC协议进行监控。ODBC(Open Database Connectivity)是一套标准的数据接口,它允许应用程序与不同的数据库进行交互。通过ODBC协议,平台可以监控数据库的各种指标,如锁的状态、表的监控、操作数、流量等。无论是MySQL、Oracle、SQL Server等主流数据库,还是国产数据库,监控易平台都能够提供全面的监控支持。
八、安全设备监控
对于安全设备的监控,如防火墙等,监控易平台同样提供了强大的监控能力。平台可以监控安全设备的系统信息、接口信息以及CPU使用情况等。同时,用户还可以通过自定义监测点的方式,扩展监控项,以满足特定的监控需求。
九、告警与事件管理
在监控过程中,一旦发现异常或故障,监控易平台会立即触发告警机制。用户可以根据实际需求,设置告警规则,添加告警策略,并对告警事件进行分类管理。平台支持通过邮件、工单等方式进行告警外发,确保关键信息能够及时传达给相关人员。
十、网络监控与自定义功能
- 上网行为管理:具备自定义功能,能够监控TCP、IP等网络协议,以及电源、风扇、网络统计等硬件指标。
- SNMP(简单网络管理协议)监控:能够检测不支持的团体名、错误的或接收到的SNMP包数量,以及整机的入流量、出流量和丢弃包的情况。
- IP监控:监控IP转发、丢弃和成功传输的情况。
十一、虚拟化监控
- 监控方式:通过接口方式监控虚拟化环境,如VMware ESXi等。
-
监控内容:
- 主机层面:展示主机数量、名称、CPU使用情况(核数、使用率、赫兹)、内存情况(总量、空闲量、使用率)。
- 虚拟机层面:展示虚拟机状态(开机/关机)、内存和CPU的总数、核数、存储使用情况(总存储、已用存储、使用率)。
- 数据存储监控:检测存储数量、名称、容量(总容量、剩余容量、已使用空间和使用率)。
十二、物联网(IoT)监控
- 协议支持:通过Modbus、TCP/IP、RS485/RS232、TCB Server、UDP等通讯协议,以及规约协议和B接口协议,实现对物联网设备的监控。
- 动环系统对接:能够直接对接第三方的动环系统,获取并展示动环设备的数据。
- 监控内容:涵盖供配电(如UPS)、空调、漏水、温湿度、红外烟杆、消防、门禁、视频等设备类型,主要用于机房监控,减少少人无人值守的情况。
十三、特定设备监控
- 精密空调监控:支持多种品牌型号,通过MOTORBUS协议监控关键参数,如回风温湿度、压缩机状态、风机状态等,以及空调的制冷效果和舒适度。
- UPS监控:通过Model Bus协议监控UPS的逆变器状态、电流组状态等,支持多种品牌。
十四、虚拟化与云平台监控
- 操作系统层面监控:不区分物理机或虚拟机,根据操作系统类型(Windows/Linux)进行监控,支持多种协议。
- 云平台监控:支持公有云(如阿里云、京东云、华为云)的监控,通过API接口获取数据,并根据云平台版本和接口信息定制监控模板。
十五、数据采集与传输
- UPS监控: 监控内容:整流器、逆变器状态,电池组电压、电流,旁路状态,负载情况等。数据展示:实时电压、电流、电池电压、工作模式、输出频率等,并支持历史数据查询。
- 温湿度监控: 监控内容:实时温度和湿度。数据展示:当前温湿度值,并支持历史数据查询和报表生成。
- 录像机监控: 监控方式:通过API接口进行监控。监控内容:硬盘状态、摄像头状态(在线情况、录像状态、码率等)。
- 数据采集频率: 可自定义设置采集频率,根据设备或监测点的重要性进行调整。支持最小5秒的采集频率,确保数据的实时性。
十六、数据传输与存储
- 传输协议: 使用多种传输协议(如Modbus、TCP/IP、API等)将数据传输至监控平台。
- 数据传输安全: 数据传输过程中进行加密,确保数据安全。前端页面和接口中,凭证信息以密文形式展示,防止泄露。
- 数据存储: 采用自主研发的数据库,具有缓冲机制,减少磁盘读写压力。数据存储时进行加密,确保数据安全。
十七、数据展示与查询
- 实时数据展示: 监控平台实时展示设备状态和数据。支持点击监测点名称查看详细数据和历史数据。
- 历史数据查询: 支持自定义时间范围查询历史数据。数据以列表或图表形式展示,便于分析和报告生成。
十八、告警机制
- 告警触发: 根据设定的阈值或条件,触发告警。告警信息包括设备名称、状态、时间等。
- 告警外发: 支持通过邮件、工单、企业微信等方式将告警信息发送给运维人员。运维人员无需时刻盯着监控平台,即可及时接收到告警信息。
十九、协议添加:灵活多样的监控方式
监控系统支持多种协议,以满足不同设备和系统的监控需求。用户可以通过以下三种方式添加协议:
- 手动添加: 进入“设备管理”菜单,点击“新增设备”。选择所需的监控模板,如“SNMP监控Windows”、“Agent监控Linux”等。输入设备的IP地址,并选择或新增凭证(包含账号、密码、端口号等信息)。点击“确定”完成新增,并可通过“测试”按钮验证设备连接状态。
- 批量添加: 适用于大量同类设备的快速添加。下载并解压对应监控方式的压缩包,填写包含设备信息的Excel表格。上传表格至监控系统,系统将自动按照表格信息添加设备。添加过程中,系统会实时显示进度和结果,便于用户及时了解添加情况。
- 自动发现: 通过设定IP地址范围和发现方式(如SNMP、Agent、SSH等),系统自动扫描并发现符合条件的设备。发现结果以列表形式展示,用户可直接将设备新增至设备管理中,实现快速监控。
二十、设备管理:全面掌控设备信息
在设备管理模块,用户可以查看和管理所有已添加的设备信息,包括设备名称、IP地址、监控方式、状态等。同时,用户还可以对设备进行编辑、删除、重启等操作,以满足不同的运维需求。
二十一、监测点设置:精准定位监控指标
监测点是监控系统中的核心要素,它决定了系统需要监控的具体指标。用户可以根据设备类型和实际需求,灵活设置监测点。
- 选择模板:根据设备类型(如服务器OS、Linux等)选择对应的监测点模板。
- 添加监测点:在模板基础上,勾选或新增需要监控的指标(如CPU使用率、磁盘IO、物理内存等)。
- 保存设置:完成监测点选择后,保存设置并上传至监控系统。系统将根据设置对设备进行实时监控。
二十二、自动发现与告警机制:提升运维效率
- 自动发现:通过定期扫描和发现新设备,自动将其纳入监控范围,减少手动添加的工作量。
- 告警机制:当监测点数据异常或设备状态异常时,系统及时发出告警信息。告警信息可通过邮件、工单、企业微信等多种方式发送给运维人员,确保问题得到及时处理。
二十三、告警机制:及时响应,精准定位
告警机制是监控系统的核心功能之一,它能够在设备或监测点出现异常时及时发出警报,帮助运维人员快速定位并解决问题。
- 阈值设置: 阈值是判断设备或监测点是否异常的关键指标。用户可以根据实际需求设置危险阈值和故障阈值,当数据超过这些阈值时,系统将触发告警。
- 告警策略: 告警策略定义了告警的触发条件、告警级别、告警方式等。用户可以灵活配置告警策略,如设置告警对象、告警条件(危险状态、故障状态)、告警级别、触发策略等。触发策略包括连续告警间隔、告警次数等,用于控制告警的频率和数量,避免重复告警。
- 告警接收方式: 监控系统支持多种告警接收方式,包括邮件、短信、微信、声音告警、工单、企业微信、钉钉、电话等。用户可以根据实际需求选择适合的告警接收方式,并配置相应的接收信息。
- 告警处理: 当接收到告警信息时,运维人员可以及时处理并反馈处理结果。监控系统支持停止告警策略,当问题得到解决并恢复正常时,系统将停止发送告警信息,并可以通过接收恢复通知来确认设备或监测点已经恢复正常。
二十四、模块概览:全面监控,统一管理
除了告警机制外,监控系统还包含多个核心模块,提供全面的监控和管理功能。
- 设备管理模块: 通过不同的协议对多种设备类型进行统一监控和管理。支持设备的添加、编辑、删除、重启等操作。提供设备状态查看、监测点设置等功能。
- 统一展示模块: 将不同类型的设备和监测点统一展示在平台上,方便运维人员查看和管理。支持拓扑图、链路航线图、VISO视图等多种图形展示方式,直观展示设备间的链路关系。
- 机房管理模块: 提供机房管理功能,能够绘制机房样貌并关联设备。通过图形方式展示机房内设备的状态和位置,提高管理效率。
- 资产管理模块: 对机房设备和办公资产进行全生命周期管理。支持资产的入库、上架、下架、报废等操作。提供资产状态查看、资产统计等功能。
- 网络监控模块: 对网络进行全面监控,包括IP地址管理、交换机配置文件查看、流量监控等。支持专线监控,提供全量的网络监控数据。
- 业务展示模块: 从业务维度展示业务信息,包括业务健康度、繁忙度、可用性等。提供业务下的设备查看、设备状态查看等功能,帮助运维人员了解业务整体运行情况。
监控系统在IT运维管理中发挥着至关重要的作用。它不仅能够实时掌握设备的运行状态,还能在异常情况下及时发出告警,帮助运维人员快速定位并解决问题。同时,通过统一的平台管理多种设备和资产,提高管理效率,降低运维成本。随着技术的不断发展,监控系统将不断优化和完善,为企业的数字化转型和业务发展提供更加坚实的保障。