2019第52周日

2024-03-21 09:21:22

SpringBatch 是一个大数据量的并行处理框架。通常用于数据的离线迁移，和数据处理，⽀持事务、并发、流程、监控、纵向和横向扩展，提供统⼀的接⼝管理和任务管理;考虑易用性、可扩展性，灵活性，可编程性，Spring Batch会比较适合有点编程基础（特别是使用Spring及SpringBoot框架）的开发人员，针对业务编程，可*发挥。kettle是一款可以可视化编程的开源ETL工具，把数据处理简化为Job和Transform，在Transform中，提供了各种数据读、写、转换、处理的工具。开发者仅需要以工具界面中拖拽相应的工具，进行步骤连接即可完成一个ETL工作，不同的工具及步骤结合起来可以形成相对复杂的作业流程，以完成ETL工作。但它易学难精，它提供的操作非常多，要把它们都熟悉而且做到相互结合来完成任务，是有一定难度的。二是对于一些复杂的的逻辑判断及操作，kettle虽然可以做，但操作起来就很复杂。三是不方便调试，尽管它内置有调试功能，但由于在转换中，操作都是并行的，单步调试比较难实现。四是内存消耗，本身kettle界面跑起来已经是比较耗内存的，而作业中数据量大的时候，内存消耗更大。DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，从架构上而言也是设计得很简洁的，它作为数据搬运工，支持任意数据类型的同步工作，跟Spring Batch有异曲同工之妙，DataX本身作为离线数据同步框架，采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件，纳入到整个同步框架中。但是不常维护更新，github上最近的更新是去年（2018）；二是二次开发有难度。三是使用规则操作起来不是很灵活，基本是通过json配置文件，按规则进行配置，想自定义规则是不行的。使用arthas，可以诊断stack、thread、class、function的性能及调用分析，jmap加上eclipse mat就可以覆盖性能分析、heap分析的全部要求了。

码农公寓

相关文章