集团公司(嵌入ETL工具)財务报表系统解决方式
一、项目背景:
某集团公司是一家拥有100多家子公司的大型集团公司,旗下子公司涉及各行各业,包含:金矿、铜矿、房产、化纤等。因为子公司在业务上的差异。子公司的財务报表也存在非常多不同之处。因此,各个子公司须要依据自己的情况,制作符合自己个性化需求的报表模版,然后再部署到集团server进行统一管理。
集团使用的是SAP,全部子公司正是因这个系统而产生大量数据且这些数据保存在一起。此外,各子公司也有一些自己的系统。所以各自也会产生一些数据。
出于数据安全等因素的考虑,各个子公司的数据统一集中在集团总部的数据库。子公司的报表开发者使用FineReport连接到总部数据库时,仅仅能看到自己权限内的数据。
二、项目建设目标:
定期的将总数据源中数据导入到各子公司内的数据库表中。此时各子公司在开发报表时就仅仅需连自己的数据库表就可以,这样就实现了数据权限的控制。同一时候也较好的将各子公司的数据放在各子公司的数据库表内。
三、项目建设方案:
1. 所用工具Kettle简单介绍
Kettle是一款国外开源的ETL工具,纯java编写,能够在Window、Linux、Unix上运行,绿色无需安装。数据抽取高效稳定。
ETL即数据抽取、转换、装载的过程。它是构建数据仓库的重要环节。
数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合用以支持经营管理中的决策制定过程。Kettle 的中文名称叫水壶,含义就是希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle这个ETL工具集,它同意你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描写叙述你想做什么。而不是你想怎么做。
Kettle中有两种脚本文件。transformation和job。transformation完毕针对数据的基础转换,job则完毕整个工作流的控制。
作为Pentaho的一个重要组成部分。如今在国内项目应用上逐渐增多。FineReport报表软件能够实现和Kettle工具的完美集成应用。
2. Kettle工具的优势:
(1)kettle开源、高效
(2)kettle 非常强大并且易于使用的设计界面
(3)有非常强大并且众多的使用群体,应用广泛
(4)可用java进行集成开发:
提供了基于JAVA的脚步编写功能,能够灵活地自己定义ETL过程,使自行定制、批量处理等成为可能。这才是一个程序猿须要做的工作,而不仅是象使用Word一样操作kettle用户界面。
3. Kettle工具工作原理:
(1)Kettle的四大模块:
Spoon 是一个图形用户界面。它同意你运行转换或者任务。当中转换是用Pan工具来运行,任务是用Kitchen来运行。Pan是一个数据转换引擎。它能够运行非常多功能,比如:从不同的数据源读取、操作和写入数据。
Kitchen 是一个能够运行利用XML 或数据资源库描写叙述的任务。通常任务是在规定的时间间隔内用批处理的模式自己主动运行。
以下是一个简单的ETL过程:
(2)原理总结:
Kettle实现数据转换,主要是通过JDBC驱动,建立连接。载入数据。转化数据并储存数据。
4. 利用kettle实现定时导出数据方案
实现定时导出数据。主要实现二个关建点:
1.定时功能
2.从源数据库中提取数据插入目标数据库
利用 kettle工具能够轻松实现以上二点。
1.定时功能:
Kettle是成熟专业的ETL工具,实现定时功能仅仅需对作业进行相应的设置就可以,例如以下所看到的,表示每天的12点整运行同步任务。
2.从源数据库中提取数据插入目标数据库
Kettle仅仅需简单配置就可以从数据库中取出数据,例如以下图所看到的。
当中${company}为公司变量名称。存入目标数据库也相似,仅仅须要简单配置就可以
详细使用配置见以下的实例。
5. Kettle工具的定时数据提取应用实例:
(1)实例功能:
定期对各个子公司的数据库表进行查询并且通过数据抽取和比較实现数据插入更新。
(2)实例分析:
实现整项作业共须要3个文件,名称和相应功能例如以下表所看到的:
文件名 |
实现功能 |
main.kjb |
作业文件,用来定时运行mainTrans.ktr |
mainTrans.ktr |
用来批量运行trans1.ktr,并提供trans1.ktr的变量 |
trans1.ktr |
依据mainTrans.ktr提供的变量详细运行导出的转化 |
(1)文件详细说明:
mainTrans.ktr:
在mainTrans.ktr中生成不同的数据库连接信息和其它变量信息。
演示样例中为手动输入数据,也能够把信息保存在文本中或者数据库中,设置相应的输入就可以。例如以下所看到的,table为子公司数据库中的表名,company相应公司。后面的值为子公司数据库的连接信息。
mainTrans.ktr中有个java脚本,详细行为为获取trans1.ktr文件,设置变量并运行。
上面有几条记录就会运行几次trans1.ktr。
trans1.ktr:
详细运行导出的文件。演示样例中为mysql数据库。表名和字段也是特别设置的,请依据自己的环境进行相应的改动。
表输入:
表输入依照须要导出的总数据库信息配置好,sql演示样例语句为:
SELECT * FROM kettletb WHERE company='${company}'
表示为仅仅选出相应子公司的数据。当中${company}为传入进来的公司名。
详细配置页面例如以下图:
表输出:
这里的配置须要依据变量来设置,目标表为${table}来获取要导出的表名。其它配置例如以下所看到的,当中的值相应mainTrans.ktr中生成的数据(当中Password为${password}):
插入更新:
演示样例中对数据库表中的id和name字段进行查询,通过对id的比較来筛选掉原本数据库表里就用的数据,这种话仅仅须要插入最新更改的数据就可以,大大提高了数据转换的效率。
设置main.kjb的定时时间。运行就可以。设置页面參考例如以下图: