此系列博客皆为阅读《Pro Spring Batch》一书的读书笔记;
为什么我们需要批处理?
- 我们不会总是想要立即得到需要的信息,批处理允许我们在请求处理之前就一个既定的流程开始搜集信息;比如说一个银行对账单,我们可以按月生成,并在用户查询之前开启一个批处理流程进行处理;
- 有时候它能让生意做得更好;比如说在线购物时,并不是说你买了一个产品零售商就立即发货,而是四五个小时后,统一发货;
- 更好的利用资源;让应该利用的处理能力闲置起来是一个大的浪费,我们可以定制处理让一个机器一个接一个的运行Job可以更好的利用机器的处理能力;
什么是批处理?
批处理是指在没有与用户进行交互和干扰的情况下进行数据处理,一旦开始,一个批处理流程应该在没有任何干扰的情况下运行至结束;
为什么要使用Spring Batch?
- 可维护性,Spring Batch能让你依靠Spring框架所提倡的依赖注入去解耦对象,凭借Spring所提供的测试工具生成健壮的一系列测试单元,这些都让你的维护风险最小化;
- 灵活性,使用Spring Batch,你能在系统之间共享代码,如你能使用那些在你的Web应用程序中已经被测试和调试过的服务;
- 可扩展性,在一个完全没有事务管理的Batch Job中,你只需要记住一些原则,并通过一些简单的配置就可以让整个批处理流程具有事务回滚和Commit的能力;
- 学习曲线低,如果你有过使用Spring的经验,你只需很小的学习曲线就能使用Spring Batch,因为Spring Batch建立在Spring框架的基础之上,它遵循Spring的惯例,像其他基于Spring的应用程序那样,使用Spring的其它特征;
- 活跃的社区支持;
Spring Batch的背景及组成
Spring Batch框架是埃森哲和SpringSource合作项目,它利用一个基于标准的方式去实现常见的批处理模式和范例;它实现的特征包括:数据验证、输出格式化、用一种可重用的方式去实现复杂的业务规则、处理大数据集的能力;
Spring Batch由3层组成:
第一层是应用程序层,包括:所有的自定义代码、为建立批处理流程的所有配置、业务逻辑和服务;注意应用程序层并不处于其它两层的上方,而是封装了其它两层(核心层和基础框架层),原因是在应用程序层中绝大多数你所开发的自定义代码都是和核心层一起工作的;
应用程序层绝大部分时候是和下一层(核心层)进行交互,核心层包含了定义“批处理域”的所有部分,核心组件的元素包括Job和Step接口,同时也包括执行Job的所有接口:JobLauncher和JobParameter;
最下面一层是基础框架层,为了做一些处理,你需要从文件、数据库中读写数据,或者应付一个Job失败的情况,这些部分被视作为常见的基础框架,被放置在Framework的基础框架组件里面。
注意:Spring Batch最常见的误解是它是一个scheduler,但在Spring Batch中没有任何一种方式能让一个Job在某个预定的时间或者被某个事件触发时启动,这些都是通过外部的方式来做到
使用Spring Batch来定义Job
Spring Batch包含了很多领域特定的概念,其间就包括Job,一个Job是指由很多Step组成的一个流程,当一个Step失败之后,这个Job可能会重新运行也可能不会重新运行,一个Job的流程也可能基于某个条件来运行;我们可以在一个applicationContext文件中这样来定义一个Job:
<bean id="accountTasklet" class="com.thoughtworks.springBatchDemo.AccountTasklet"/> <job id="accountJob"> <step id="accountStep"> <tasklet ref="accountTasklet"/> </step> </job>
Spring Batch Admin Project
Spring Batch提供了很多管理工具,例如启动或停止Spring Batch Job、查看上次Job运行情况的统计信息;Spring Batch将这些功能都包含在一个新的插件里:Spring Batch Admin Project,它提供了一个基于Web的控制中心,让你能对你的批处理流程实施控制,并能监控批处理的性能。