mapreduce可以直接对hdfs进行清洗和计算,这里介绍oozie中如何调度使用。
操作步骤如下:
1. 写一个mapper和reduce类,并且打包成jar包
2. 在workflow中引用mapper和reduce
3. oozie中常用的coordinator、job.properties配置。
4. 上传hdfs中oozie的app目录。
5. 测试。
案例:统计单词大小。
2.在workflow中可能引用
注意事项:
如果将mapper和reduce写在同一个类中时,在编译后生成的类如下,所以在workflow中填写,按照下面的类填写。
MRTest$MyMapper.class
MRTest$MyReduce.class