使用Oracle官方巡检工具ORAchk巡检数据库

ORAchk概述

ORAchk是Oracle官方出品的Oracle产品健康检查工具,可以从MOS(My Oracle Support)网站上下载,免费使用。这个工具可以检查Oracle数据库,GoldenGate,Oracle Enterprise Manager 12c、13c等Oracle产品,具体支持的产品和相关资料可以参考MOS文档:ORAchk - Health Checks for the Oracle Stack (Doc ID 1268927.2)。

ORAchk支持所有主流平台,当然,对有些平台的支持并不是很完美,比如,对windows平台的支持是限定版本,而且需要安装Cygwin这样的软件。最新版本的ORAchk对Oracle数据库的版本支持是:10gR2,11gR1,11gR2,12cR1,12cR2。

ORAchk是一个命令行工具,运行后收集系统配置信息,同时按照预定义的规则,评估配置是否符合Oracle的最佳实践,评估结果输出为一份html格式的健康检查报告,报告中会有所有检查项的细节数据,以及根据规则给被检查系统的一个综合评分。虽然这个评分规则比较“简单粗暴”,(所有检查项的分值都一样),但这个分数还是有一定意义的,起码给领导或甲方看的时候,可以给出一个量化指标了,而且可以在不同的系统之间,或不同时间的同一个系统之间进行比较。

ORAchk执行及报告样例

(ORAchk目前最新的版本是12.2.0.1.1,后续的例子里都是这个版本)

ORAchk的执行比较简单,下载软件包(链接在上面提到的MOS文档中),上传到服务器,解压缩,然后直接以root身份执行orachk,也可以用oracle软件安装用户执行,在运行时会提问root口令,也可以选择使用sudo或者略过需要使用root身份的检查。

以检查一套linux平台上的oracle 11.2.0.4 RAC为例:

使用Oracle官方巡检工具ORAchk巡检数据库

ORAchk会自动识别CRS HOME,请用户确认(当然,检查单实例就没有这个问题了),还会提问是检查集群中的哪个数据库。因为RAC的所有实例的主机都会执行检查,如果以前没有配置过root用户的用户等效性,还会自动帮你配置,也都比较简单,跟着提示做就可以。检查完成后,会生成一个打包文件,里面包含最终的html格式的报告,以及相关的细节数据,报告的例子:

使用Oracle官方巡检工具ORAchk巡检数据库

以上面的检查为例,报告分5部分。Database Server章节主要是OS,ASM和数据据的检查项,我们只要关注fail和warning的检查项就可以了:

使用Oracle官方巡检工具ORAchk巡检数据库

可以点击“view”,查看检查项的具体细节:

使用Oracle官方巡检工具ORAchk巡检数据库

Patch Recommendation 是补丁建议:

使用Oracle官方巡检工具ORAchk巡检数据库

Cluster Wide的检查主要是检查RAC节点之间的配置是否一致,比如时间、目录属主之类的

使用Oracle官方巡检工具ORAchk巡检数据库

MAA 记分卡主要是检查系统是否符合Oracle推荐的最大可用性架构:(什么是最大可用性架构,不是本文的重点)

使用Oracle官方巡检工具ORAchk巡检数据库

另外最耗时的10个检查什么的,我觉得没什么意义。

ORAchk以后台进程的方式定时运行

ORAchk可以配置成以后台进程模式,按照用户定义的时间间隔,自动运行,同时把结果通过email的方式发送给用户。

Daemon Mode配置方法

1. 配置orachk

使用orachk设置自动运行参数,有两个参数是必须设置的:AUTORUN_SCHEDULE 和NOTIFICATION_EMAIL,设置的例子:

# ./orachk –set “AUTORUN_SCHEDULE=3 * * 0 ;NOTIFICATION_EMAIL=raobing@hthorizon.com”

其中AUTORUN_SCHEDULE是运行的时间,含义是:AUTORUN_SCHEDULE=hour day month day_of_week

用*代表所有值,比如上面例子中“3 * * 0” 代表每个星期天的3点执行(0代表星期天,6代表星期六)

NOTIFICATION_EMAIL参数的值就是接受报告的邮箱地址。

2. 启动后台进程

# ./orachk –d start

这种模式需要工具expect来处理root口令,避免多次交互输入口令,这个工具的下载地址:http://expect.sourceforge.net/

Expect 安装是源码安装,在linux平台上,需要tcl-devel 这个rpm包,安装expect和tcl-devel 包的过程略。

邮件相关配置

ORAchk支持使用mailx和sendmail两种方式发送邮件,为了外部邮箱能够收到邮件,我使用了mailx的方式,在我的测试机上,安装的是Oracle Linux 6.5,系统自带mailx 12.4,为了保证能够让ORAchk使用mailx,需要保证系统上安装了uuencode,sharutils rpm包里面有这个工具。

另外,在/etc/mail.rc,增加下列配置行,主要是目前大部分外部smtp服务器都是需要认证才能发邮件,所以要给出认证信息:

使用Oracle官方巡检工具ORAchk巡检数据库

如果一切正常,在orachk目录下的orachk_daemon.log会有类似的字样:

使用Oracle官方巡检工具ORAchk巡检数据库

邮件样例

第一次的邮件报告就是一份html格式的报告,后续的报告会包含上一次的报告和本次报告,以及两份报告的不同之处。

使用Oracle官方巡检工具ORAchk巡检数据库

Collection Manager

ORAchk的软件包里面还提供了一个web应用,用于管理健康检查的结果,应用的名字叫Collection Manager(CM),在这个应用中,一次检查被称为一个Collection。

CM是一个Oracle APEX应用,Oracle APEX显然不是这篇文章讨论的问题,关于APEX的介绍及安装部署会在其他文章介绍。

CM在导入APEX后,运行应用,登录的界面是这个样子的:

使用Oracle官方巡检工具ORAchk巡检数据库

在系统中应用包含两个样例Collection,是在一个sample系统上运行的2次检查。可以很直观地看到最新一次的检查,FAIL的检查项31%,WARNING的检查项31%,PASS的检查项38%。

我们把我们实际的Collection上传两个:

使用Oracle官方巡检工具ORAchk巡检数据库

直接上传zip包,系统会自动在后台解压缩并处理,需要花几分钟时间。

使用Oracle官方巡检工具ORAchk巡检数据库

查看我们上传的两个不同系统的Collection:

使用Oracle官方巡检工具ORAchk巡检数据库

点击图表,可以转到具体信息页面,比如我们点击4%的红色区域,会转向这个页面,除了能查看具体的检查项信息外,还可以针对问题创建Ticket:

使用Oracle官方巡检工具ORAchk巡检数据库

CM应用中应该算是自带了一个事件管理系统,可以将检查后发现的配置缺陷,当作一个事件,通过CM中的事件管理功能,进行追踪管理:

使用Oracle官方巡检工具ORAchk巡检数据库

另外这个应用还可以进行不同Collection的比较,也很方便。

从这个应用的内容看,官方希望的系统健康检查流程应该是这样的:

1. 客户自助或服务商现场工程师运行orachk,生成Collection

2. 上传Collection到CM应用,CM是部署在云(公有或私有)上的

3. 客户登录系统查看、管理自己系统的检查报告,不再需要服务人员提供检查结果

4. 检查出的问题可以使用CM应用来进行跟踪管理

其实要真能这样也不错,但是个人觉得目前可能实现起来还有一些障碍:

1. Orachk和CM系统都没有中文版,估计还得有服务商翻译,可能最后还是要转变成传统的交付物。

2. Orachk目前检查的内容还不能算全面,比如性能方面的数据

使用自定义检查项

ORAchk支持自定义检查项,用户只要按照一定的规则,创建对应的XML配置文件,就可以让ORAchk进行自定义检查。

ORAchk的软件包里面提供了一个sample_user_defined_checks.xml,给出了几个例子,而且有详细的注释,只要按照这个规则,生成user_defined_checks.xml,放在orachk所在的目录,就可以让orachk进行自定义检查了。自定义检查项目前支持两种类型:OS 命令和SQL语句。下面我看一个SQL语句的自定义检查:

这个检查返回空闲空间比例小于10%的表空间的个数,为0是检查通过,不为0是FAIL。

<?xml version="1.0" encoding="UTF-8"?>

<UserDefinedChecks

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:noNamespaceSchemaLocation="user_defined_checks.xsd"> <!-- Main Tag (root element)-->

<CHECK AUDIT_CHECK_NAME="Tablespace Utilization">

<!-- This check should run on all supported platforms and versions given the platform and version specs below -->

<ORACLE_VERSION>*</ORACLE_VERSION>

<PLATFORMS>

<PLATFORM TYPE="*">

<FLAVOR>*</FLAVOR>

</PLATFORM>

</PLATFORMS>

<PARAM_PATH>tbs_ut</PARAM_PATH> <!—注意这里参数值需要和SQL_COMMAND中的返回字符串匹配-->

<SQL_COMMAND> <!—这个SQL返回空闲空间比例小于10的表空间的个数-->

<![CDATA[ select 'tbs_ut = '||count(*) from (select a.tablespace_name,

trunc(sum(a.tots) / 1024 / 1024, 2) Tot_Size_mb,

round(sum(a.sumb) / 1024 / 1024, 2) Tot_Free_mb,

round(sum(a.sumb) * 100 / sum(a.tots), 2) Pct_Free,

round(sum(a.largest) / 1024 / 1024, 2) Max_Free_mb,

sum(a.chunks) Chunks_Free

from (select tablespace_name,

0 tots,

sum(bytes) sumb,

max(bytes) largest,

count(*) chunks

from dba_free_space a

group by tablespace_name

union

select tablespace_name, sum(bytes) tots, 0, 0, 0

from dba_data_files

group by tablespace_name) a

group by a.tablespace_name)

where PCT_FREE &lt; 10;]]> <!—注意大于号,小于号,等号都需要替换为XML能够处理的字符-->

</SQL_COMMAND>

<SQL_COMMAND_REPORT>

<![CDATA[select 'Free PCT less 10% TBS = '||count(*) from (select a.tablespace_name,

trunc(sum(a.tots) / 1024 / 1024, 2) Tot_Size_mb,

round(sum(a.sumb) / 1024 / 1024, 2) Tot_Free_mb,

round(sum(a.sumb) * 100 / sum(a.tots), 2) Pct_Free,

round(sum(a.largest) / 1024 / 1024, 2) Max_Free_mb,

sum(a.chunks) Chunks_Free

from (select tablespace_name,

0 tots,

sum(bytes) sumb,

max(bytes) largest,

count(*) chunks

from dba_free_space a

group by tablespace_name

union

select tablespace_name, sum(bytes) tots, 0, 0, 0

from dba_data_files

group by tablespace_name) a

group by a.tablespace_name)

where PCT_FREE &lt; 10;]]>

</SQL_COMMAND_REPORT>

<OPERATOR>=</OPERATOR>

<COMPARE_VALUE>0</COMPARE_VALUE> <!—操作符是等号,比较值是0,也就是说SQL返回0,代表pass,否则fail-->

<CANDIDATE_SYSTEMS>*</CANDIDATE_SYSTEMS>

<COMPONENT_DEPENDENCY>RDBMS</COMPONENT_DEPENDENCY>

<DATABASE_MODE>3</DATABASE_MODE> <!— 3代表open,2代表mount,1代表nomount-->

<DATABASE_TYPE>CDB:PDB:NORMAL</DATABASE_TYPE>

<DATABASE_ROLE>PRIMARY</DATABASE_ROLE>

<ALERT_LEVEL>FAIL</ALERT_LEVEL>

<PASS_MSG>The number of Tablespaces which free PCT less 10% is zero</PASS_MSG>

<FAIL_MSG>The number of Tablespaces which free PCT less 10% is not zero</FAIL_MSG>

<BENEFIT_IMPACT>

<![CDATA[ tablespace free pct should be more than 10% ]]>

</BENEFIT_IMPACT>

<RISK>

<![CDATA[ leak of space ]]>

</RISK>

<ACTION_REPAIR>

<![CDATA[ add datafile or resize datafile ]]>

</ACTION_REPAIR>

<LINKS>

<LINK></LINK>

</LINKS>

</CHECK>

<!-- END USER DEFINED CHECKS -->

</UserDefinedChecks>

自定义检查项,可以和其他检查项一起执行,也可以单独执行,单独执行自定义检查项的语法是:

# ./orachk –profile user_defined_checks

下面是自定义检查项报告样例:

使用Oracle官方巡检工具ORAchk巡检数据库

如果你觉得这样写XML麻烦,还可以使用CM应用来生成自定义检查项的XML文件,菜单路径:Administration -> “+ Add New User Defined Checks”

使用Oracle官方巡检工具ORAchk巡检数据库

定义好后,可以生成XML文件并下载:

使用Oracle官方巡检工具ORAchk巡检数据库

不过这个功能并不完善,缺乏必要得有效性检查,如果想不出错,还是要把XML得规则搞清楚,我个人还是比较喜欢手工写XML。

上一篇:asp.net对word文档进行修改 对于使用word文档做模板编辑比较适用


下一篇:Codeforces Round #379 (Div. 2) A. Anton and Danik 水题