ETL_Kettle简介

ETL_Kettle简介

kettle 是纯 java 开发,开源的 ETL工具,用于数据库间的数据迁移 。
Kettle中有两种脚本文件,transformation和job。
transformation完成针对数据的基础转换,job则完成整个工作流的控制.
ETL_Kettle简介ETL_Kettle简介
Kettle下载地址:
https://sourceforge.net/projects/pentaho/files/Data%20Integration/

Kettle启动
Kettle是绿色软件, 解压缩到任意本地路径, 双击Spoon.bat 就能启动 Kettle 。

Kettle使用要点:
- Kettle组件类型基本说明transformation/job
- Kettle大数据组件的应用说明
- 基于表对表的同步
- 基于表到hdfs的同步
- 基于文件到hdfs的同步
- 基于表到hive的同步
- 基于表到hbase的同步
- 基于文件到hbase的同步
- 基于表到phoenix的同步
- Kettle中sqoop的调用
- Kettle中JavaScript的基本应用
- 作业调用作业及转换**

Kettle组件类型基本说明transformation/job

  1. Kettle设计好后可产出两种脚本文件,transformation(转换,后缀为.ktr)和job(作业,后缀为.kjb),这两类脚本都是xml格式。
  2. Transformation完成针对数据的基础转换,作用和地位类似于DataStage中的Job。
  3. Job则完成整个工作流的控制,作用和地位类似DataStage中的Sequence。
    注:一般程序使用job开发即可,但针对大数据相关程序可以使用Transformation开发,然后使用job去封装。
  4. 作业,可串行执行或并行执行。 串行执行,一条线,按步先后执行;两条线,则先执行完其中一条线再执行另一条线。并行执行,两条线同时执行,执行结果,true(成功)或false(失败),根据执行结果可控制流程走向:
    ETL_Kettle简介
  5. 转换,一开始,所有步骤同时运行,记录从最前端的步骤向后传递,传递到相应步骤则记录被该步骤做相应处理,处理完成再往后传递。(如果不做连接,优先执行SQL)

参考文章:
【kettle 教程(一):简介及入门】https://blog.csdn.net/qqfo24/article/details/82190535

上一篇:Spark Dataset DataFrame空值null,NaN判断和处理


下一篇:ETL工具kettle实现数据同步