oracle实现通过logminer实现日志抓取分析

2021-12-31 05:11:17

场景：现场库到前置库。

思考：使用触发器？

1、侵入性解决方案

2、需要时各种配置，不需要时又是各种配置

Change Data Capture：捕捉变化的数据，通过日志监测并捕获数据库的变动（包括数据或数据表的插入，更新，删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中或者通过其他途径分发出去。

与触发器相比，通过日志监控的好处：

1、对原库基本无侵入性，不需要像触发器一样，对原库进行操作。
2、可以针对整库或者库中的表进行监控，比触发器更加灵活高效，避免监控表比较多的情况的频繁的建触发器

说明

关于logminer：

所有对用户数据和数据字典的改变都记录在Oracle的Redo Log中，因此，Redo Log包含了所有进行恢复操作所需要的信息。但是，原始的Redo Log文件无法看懂，所以，Oracle从8i以后提供了一个非常有用的分析工具，称为LogMiner。使用该工具可以轻松获得Redo Log文件（包含归档日志文件）中的具体内容。

关于代码：全部写到一个java方法下，主要演示所有过程，关键问题处理，封装留给你们自己进行。

关于参考：主要参考了debezium和一些国外开源的实现，但是这些都没有支持clob大字段和blob二进制字段，同时也没考虑一些特殊情况，我在平时的测试积累中解决了此块的内容，故一起开源分享出来。

Github地址

https://github.com/nengm/OracleCDCByLogminer

前置步骤

Oracle：通过开源logminer进行日志分析，支持大字符串，二进制。

目前只针对在线日志分析，离线的由于需要考虑log大小等，留给以后处理。

开启归档日志，这边步骤主要是为了能够使用logminer

以数据库系统管理员sys as sysdba登录
SQL> shutdown immediate; 关闭数据库
SQL> startup mount; 启动数据库到mount状态
SQL> alter database archivelog; 启动归档模式
SQL> alter database open;启动数据库
SQL> alter system switch logfile;切换日志文件

查看数据字典表或视图权限
  GRANT SELECT_CATALOG_ROLE TO [用户名];
执行系统所有包权限
  GRANT EXECUTE_CATALOG_ROLE TO [用户名];
创建会话权限
  GRANT CREATE SESSION TO [用户名];
选择任何事务的权限
  GRANT SELECT ANY TRANSACTION TO [用户名];

对于12c及以上，还需要对pdb用户进行一些设置，具体遇到再百度下。

分析过程

1、拿到当前最大位点

oracle实现通过logminer实现日志抓取分析

2、开启logminer分析

如果ENDSCN和STARTSCN没有超过步长，ENDSCN就拿当前的最大位点。

begin
    DBMS_LOGMNR.START_LOGMNR(
        STARTSCN => 586613478,
        ENDSCN => 586613490,
        OPTIONS => 
            DBMS_LOGMNR.SKIP_CORRUPTION
            +DBMS_LOGMNR.NO_SQL_DELIMITER
            +DBMS_LOGMNR.NO_ROWID_IN_STMT
            +DBMS_LOGMNR.DICT_FROM_ONLINE_CATALOG
            +DBMS_LOGMNR.CONTINUOUS_MINE
            +DBMS_LOGMNR.COMMITTED_DATA_ONLY
            +DBMS_LOGMNR.STRING_LITERALS_IN_STMT
    );
end;

3、通过数据字典得到表的数据类型

代码中的dictionary.sql

4、根据配置的白名单进行信息删选

SELECT
*
FROM
    V$LOGMNR_CONTENTS
WHERE(SEG_OWNER = ‘EPOINT‘ AND TABLE_NAME = ‘BASEINFO‘ AND COMMIT_SCN >=0)

oracle实现通过logminer实现日志抓取分析

5、分析

1、insert语句（带大字段和图片）

大字段和图片都通过存储过程得到。

oracle实现通过logminer实现日志抓取分析

我们根据csf看是否超过4000个字节，如果超过csf为0，我们把所有的sql先组装到一起，然后通过信息组装出一个guid，存入map，这样后面就能找到对应的EMPTY_CLOB()对应的值了。

//用xid、ownerName、tableName、columnString唯一标识当前二进制字段的guid
//#!>-<!#为分隔符
//例如：99001800E16A0000#!>-<!#EPOINT#!>-<!#BASEINFO1#!>-<!#IMAGE

2、update语句（带大字段和图片）

update "EPOINT"."BASEINFO" set "NAME" = ‘苏爱毓‘, "BIRTHDAY" = TIMESTAMP ‘ 1977-03-17 17:22:59‘, "AGE" = 3, "ADDRESS" = UNISTR(‘\6FB3\95E8\516B\885718\53F7-8-6‘) where "ROWGUID" = ‘b73af60a-cdda-4702-8f28-0d707c0245a1‘ and "NAME" = ‘法贞凤‘ and "BIRTHDAY" = TIMESTAMP ‘ 1978-04-16 09:21:46‘ and "AGE" = 61 and "ADDRESS" = UNISTR(‘\8BF8\57CE\5927\53A674\53F7-6-8‘)

下面紧接着是他要处理的大字段和二进制。

程序中通过下面的guid判断是否是一批数据，然后把检测到的大字段或者二进制与之关联。

//用xid、ownerName、tableName、columnString唯一标识当前二进制字段的guid
//#!>-<!#为分隔符
//例如：99001800E16A0000#!>-<!#EPOINT#!>-<!#BASEINFO1#!>-<!#IMAGE

注意：

我们再测试下，让startscn加1

oracle实现通过logminer实现日志抓取分析

可以看到无法分析出数据了，所以我们程序需要处理掉这种情况，遇到这种情况最简单的办法就是startscn要往回退一点，也注意不能形成死循环

其实主要是通过这些进行流程的分析处理，里面会遇到很多的坑。

测试实现

配置：由于测试整个过程，暂时单表，多表只要改造下。

1、配置

oracle实现通过logminer实现日志抓取分析

2、启动

oracle实现通过logminer实现日志抓取分析

3、插入一条数据

主要在11g在测试，12c做了兼容，而且要使用cdb账户

11g

oracle实现通过logminer实现日志抓取分析

插入mysql中

oracle实现通过logminer实现日志抓取分析

5、更新

oracle

oracle实现通过logminer实现日志抓取分析

更新完mysql

oracle实现通过logminer实现日志抓取分析

6、插入2000条测试

oracle

oracle实现通过logminer实现日志抓取分析

mysql目标数据库

oracle实现通过logminer实现日志抓取分析

码农公寓

场景：现场库到前置库。

思考：使用触发器？

说明

Github地址

前置步骤

分析过程

1、拿到当前最大位点

2、开启logminer分析

3、通过数据字典得到表的数据类型

4、根据配置的白名单进行信息删选

5、分析

1、insert语句（带大字段和图片）

2、update语句（带大字段和图片）

注意：

测试实现

1、配置

2、启动

3、插入一条数据

11g

插入mysql中

5、更新

oracle

更新完mysql

6、插入2000条测试

oracle

mysql目标数据库

相关文章