11gRAC CHM 管理

2023-01-31 15:04:25

Cluster Health Monitor（缩写CHM）是Oracle提供的工具，自己主动的资源来收集操作系统（CPU、内存、SWAP、过程、I/O与网络）用法。

CHM数据被收集每秒一次，11.2.0.3版本号是5秒收集。

这些系统资源数据对于诊断集群系统的节点重新启动、Hang、实例驱赶(Eviction)、性能问题等是很有帮助的。

还以使用CHM来及早发现一些系统负载高、内存异常等问题，从而避免产生更严重的问题。

CHM会自己主动安装在以下的软件：

11.2.0.2 及更高版本号的 Oracle GridInfrastructure for Linux (不包含Linux Itanium) 、Solaris (Sparc 64 和 x86-64)

11.2.0.3 及更高版本号 Oracle GridInfrastructure for AIX 、 Windows (不包含Windows Itanium)。

在集群中，能够通过以下的命令查看CHM相应的资源(ora.crf)的状态：

$ crsctl stat res ora.crf -init

CHM主要包含两个服务：

1). SystemMonitor Service(osysmond)：这个服务在全部节点都会执行。osysmond会将每一个节点的资源使用情况发送给cluster logger service，后者将会把全部节点的信息都接收并保存到CHM的资料库。

2). Cluster Logger Service(ologgerd)：在一个集群中的。ologgerd 会有一个主机点(master)。另一个备节点(standby)。当ologgerd在当前的节点遇到问题无法启动后，它会在备用节点启用。（这个和DRM的master是不同的概念）

CHM Repository：用于存放收集到数据。默认情况下。会存在于Grid Infrastructure home 下，须要1 GB 的磁盘空间，每一个节点大约每天会占用0.5GB的空间。您能够使用OCLUMON来调整它的存放路径以及同意的空间大小(最多仅仅能保存3天的数据)。

关闭和开启CHM（最好用grid账号在2个节点上分别运行运行）

关闭：

ora11grac1</home/grid>$ crsctl stop res ora.crf –init

ora11grac2</home/grid>$ crsctl start res ora.crf –init

开启：

ora11grac1</home/grid>$crsctl startres ora.crf -init

ora11grac2</home/grid>$crsctl startres ora.crf -init

备注：

1.关闭服务后I/O缓缓下降

2.本次改动只适用于本次，重新启动DB或者crs服务本次改动失效

3.是否启用主要取决于生产环境的设备IO，測试机能够直接禁用

启用和禁用CHM：

#<GRID_HOME>/bin/crsctl modify resource ora.crf -attr"AUTO_START=never" –init

#<GRID_HOME>/bin/crsctl modify resource ora.crf -attr"AUTO_START=always" -init

参考文档：MOS文件： Cluster Health Monitor (CHM) FAQ(Doc ID 1328466.1)

码农公寓