背景介绍
一直以来,open source的项目和社区为企业级应用提供了大量的web-based和SOA messaging-based的框架,而对批处理(batch processing)关注的较少,因为缺少标准和可重用的批处理框架,导致企业内部出现了大量的一次性的(one-off)和闭门造车(in-house)的批处理解决方案(1688的task就是典型代表)。
鉴于此,SpringSource和埃森哲公司联手致力于改变此状况,结合埃森哲在批处理上的架构经验和SpringSource的技术优势,Spring Batch应运而生,它标准化了批处理的处理流程,框架和工具,为企业提供了一个标准的,健壮的批处理解决方案。
一段时间以后,JCP发现这个Spring Batch做的不错哦,我们干脆把它变成整个Java社区的standard吧,就这样用一个JSR-352把Spring Batch给收编了。其实这种开源社区反哺JCP的事情早已经不是第一次了,想想当年的Hibernate之于JPA,Jersey之于JAX-RS,都是一样一样的,不过有标准总比没标准好,对于开发者最直接的好处就是减少学习和开发成本,不用重复造*。
核心概念
领域概念
如上图所示,JobLancher启动job,一个job包含若干step,每个step又包含一个ItemReader(读数据),ItemProcessor(处理数据),和ItemWriter(输出数据),job的元数据和运行状态则存储在JobRepository中。
运行时概念
Job的一次完整运行称为一个JobInstance,由JobParameter区分(Spring认为相同的Job不应该多次运行),即如果JobParameter相同则为同一个Job,而一次运行如果中途失败或者抛异常,再次运行仍为一个JobInstance,而其中的每次运行称为一个JobExecution。
执行一个step称为StepExecution
关系如下:
Job 1->n JobInstance 1->n JobExecution 1->n StepExecution
JobExecution和StepExecution各包含一个ExecutionContext,其中存储了key-value对,可以用来存储运行状态。
深入浅出
Batch NameSpace
在Spring中我们需要使用Spring Batch的扩展标签,需要我们在配置文件中,加入Batch的namespace,如下:
<beans:beans xmlns="http://www.springframework.org/schema/batch"
xmlns:beans="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="
http://www.springframework.org/schema/beans
http://www.springframework.org/schema/beans/spring-beans.xsd
http://www.springframework.org/schema/batch
http://www.springframework.org/schema/batch/spring-batch-2.2.xsd">
<job id="ioSampleJob">
<step id="step1">
<tasklet>
<chunk reader="itemReaderRef" processor="itemProcessorRef" writer="itemWriterRef" commit-interval="10" />
</tasklet>
</step>
</job>
</beans:beans>
Chunk
以Chunk为单位的处理方式,就是从ItemRader中一次读取一条item数据,然后让ItemProcessor进行处理,处理后的item会在内存中暂存累积,当达到commit-interval指定的数值是,整个Chunk会通过ItemWriter进行写出(写到文件或数据库),顺利完成后,transaction被提交。
用一段代码简单表示上面的执行过程就是:
List items = new Arraylist();
for(int i = 0; i < commitInterval; i++){
Object item = itemReader.read()
Object processedItem = itemProcessor.process(item);
items.add(processedItem);
}
itemWriter.write(items);
Tasklet
Chunk并不是Step唯一的运行方式,有些场景可能不需要这种read,process,write的三段式操作,例如通常在批处理中会产生临时文件,这种临时文件在job运行完后需要被删除,此时我们就可以简单的用一个tasklet来做清理文件的工作。创建一个TaskletStep,我们只需要写成<tasklet ref="deleteFileTasklet" />
注意在之间不能出现标签。
JobParameters
JobInstance = Job + JobParameters,JobParameters主要有两个作用:
1、用来向JobInstance运行时,提供参数。
2、用来鉴别JobInstance,JobInstance是根据不同的参数来区分的,同一个JobInstance不能被多次启动。
延迟绑定参数,Spring的Bean默认是singleton,也就是只有在Spring container启动时被实例化一次,这种Bean的参数只能被set一次,如果我们希望Bean的参数能够动态的从JobPatameters中获取,我们需要将Bean的scope设置为step。
<bean id="customWriter" class="com.mkyong.writers.CustomWriter" scope="step">
<property name="startDate" value="#{jobParameters['startDate']}" />
</bean>
Spring Batch + Quartz实例
见附件
参考
JSR-352: http://download.oracle.com/otndocs/jcp/batch-1_0-fr-spec/
Spring Batch 参考手册:http://docs.spring.io/spring-batch/reference/pdf/spring-batch-reference.pdf
实例原型:http://www.mkyong.com/spring-batch/spring-batch-and-quartz-scheduler-example/
其它: http://jamie-wang.iteye.com/blog/1876320