MapReduce编程:单词计数
1、实验描述
- 使用mapreduce编程,完成单词计数
- 实验时长:90分钟
- 主要步骤:
- 启动Hadoop集群
- 编写代码
- 打包程序,并提交至HDFS运行
- 查看实验结果文件
2、实验环境
- 虚拟机数量:3
- 系统版本:Centos 7.5
- Hadoop版本:Apache Hadoop 2.7.3
- Eclipse版本:Neon.3 4.6.3
3、相关技能
- JavaSE基础
- MapReduce编程
4、相关知识点
- 配置开发环境
- 编写Mapper类
- 编写Reducer类
- 编写main函数
- 程序打jar包
- 将jar包运行在hadoop集群上
5、实现效果
- 效果图:展示结果为成功对文件中的单词进行了单词计数
6、实验步骤
6.1进入虚拟机并启动Hadoop集群
6.1.1在master启动Hadoop集群
[zkpk@master ~]$ start-all.sh
6.1.2在master上运行jps,确认NameNode, SecondaryNameNode, ResourceManager进程启动
6.1.3在slave01上运行jps,确认DataNode, NodeManager进程启动
6.1.4在slave02上运行jps,确认DataNode, NodeManager进程启动
6.2启动Eclipse客户端
[zkpk@master ~]$ cd eclipse/[zkpk@master eclipse]$ ./eclipse
6.3在Eclipse客户端主界面中左侧空白处右击,依次选择New->Project,选择Java Project点击Next
6.3.1在弹出的对话框中定义工程名为hadoop,然后点击Finish完成创建,弹出询问是否将Java Project设置为常用工程项目时,点击Yes即可
6.3.2在工程名上单击鼠标右键点击依次选择Build Path ->Configure Build Path
6.3.3在弹出窗口中,进入Libraries模块,再点击Add External Jars导入实验相关jar包
6.3.4将hadoop主目录中的share/hadoop/common中的jar包导入,然后再次点击Add External JARs将share/hadoop/common/lib文件夹中的所有jar包导入
6.3.5将hadoop主目录中的share/hadoop/hdfs中的jar包导入,然后再次点击Add External JARs将share/hadoop/hdfs/lib文件夹中的所有jar包导入
6.3.6将hadoop主目录中的share/hadoop/mapreduce中的jar包导入,然后再次点击Add External JARs将share/hadoop/mapreduce/lib文件夹中的所有jar包导入
6.3.7将hadoop主目录中的share/hadoop/yarn中的jar包导入,然后再次点击Add External JARs将share/hadoop/yarn/lib文件夹中的所有jar包导入
6.3.8所有jar包导入完成,在Build Path点击OK按钮完成环境配置
6.4创建Wordcount的Mapper类
6.4.1首先在工程目录中的src文件夹上右击,依次选择New->Package,创建名字是org.zkpk.hadoop.wordcount的package
6.4.2右键点击Package包名,依次选择New->Class,在此package中创建mr编程中的mapper类
6.4.2.1弹出对话框,定义类名为WordMap
6.4.2.2WordMap类继承Mapper类,Mapper类的输入键值对中键是Object类型,值是Text类型;输出键值对中键是Text类型,值是IntWritable类型
6.4.3覆写Mapper类中的map方法
6.4.3.1map方法第一个参数key表示当前所读的这一行数据行首的文本偏移量
6.4.3.2第二个参数value表示当前所读的这一行文本
6.4.3.3在map方法中编写代码读取数据的每一行,将value转换成string类型,再按照字段之间的分隔符进行切分,得到一个字符串数组
6.4.3.4使用for循环对单词数组进行遍历,将每次遍历得到的单词包装成Text类型,1包装成Intwritable类型,分别作为输出的key和value
6.5创建Wordcount中的Reduce类
6.5.1右键点击包名,依次选择New->Class,在名为org.zkpk.hadoop.wordcount的package中创建reducer类
6.5.1.1弹出对话框,定义类名为WordReduce,点击Finish完成创建
6.5.1.2WordReduce类继承Reducer类,Reducer类的输入键值对中键是Text类型,值是IntWritable类型(与Mapper输出的键值对类型分别一致);输出键值对中键是Text类型,值是IntWritable类型
6.5.2覆写Reducer类中的reduce方法
6.5.2.1reduce会将相同key的键值对汇聚到一个reduce task中
6.5.2.2第一个参数key表示单词,类型对应Mapper的输出key类型
6.5.2.3第二个参数Values表示当前key对应的所有value集合,集合元素类型对应于Mapper的输出value类型
6.5.2.4对values进行遍历,将每次遍历的数值进行累加到一个变量,例如:sum
6.5.2.5结束遍历,将参数key作为输出的键值对中的键,将sum包装成IntWritable类型作为输出键值对中的值,使用context的write方法写出
6.6创建Wordcount中包含main方法的类
6.6.1右键点击包名依次选择New->Class,在名为org.zkpk.hadoop.wordcount的package中创建包含MapReduce的main方法的类
6.6.1.1定义类名为WordMain
6.6.1.2在类WordMain中创建main方法,在main方法中使用if语句判断传入的参数格式是否正确,如果不正确则退出程序(这里我们的代码需要接受两个参数作为输入和输出路径)
6.6.1.3生成Configuration类型对象
6.6.1.3利用Configuration对象生成job对象
6.6.1.4调用job的setJarByClass方法设置job运行主类
6.6.1.5通过setInputFormatClass方法设置job输入格式,setOutputFormatClass方法设置job输出格式
6.6.1.6通过setInputPaths、setOutputPath方法设置job的输入、输出路径
6.6.1.7通过setMapperClass、setReducerClass方法设置Map/Reduce阶段的类
6.6.1.8通过setOutputKeyClass、setOutputValueClass方法设置最终输出key/value的类型
6.6.1.9通过waitForCompletion方法提交job
6.7程序打jar包
6.7.1右击工程名,点击export,在弹出窗口中,选择java的 JAR file点击Next,如图:
6.7.2指定导出的jar包的位置及名字然后点击Finish,如图:
6.7.3导出完成后,关闭eclipse然后返回指定目录查看,如图所示
6.8运行jar包
6.8.1上传输入数据
6.8.1.1从Hadoop的公共目录下拷贝数据文件test.txt到/home/zkpk
[zkpk@master ~]$ cp ~/experiment/test.txt ~/
6.8.1.2将上一步拷贝的数据文件test.txt上传到HDFS的根目录
[zkpk@master ~]$ hadoop fs -put /home/zkpk/test.txt /
6.8.2查看是否上传成功
[zkpk@master ~]$ hadoop fs -ls /
6.8.3运行jar包,指定包名及主类名,然后指定输入路径参数和输出路径参数(该参数都是在HDFS上,且输出路径即word文件夹不能够已存在)
[zkpk@master ~]$ hadoop jar /home/zkpk/wordcount.jar org.zkpk.hadoop.wordcount.WordMain /test.txt /word
6.8.4查看输出目录
[zkpk@master ~]$ hadoop fs -ls /word/
6.8.5查看输出结果
[zkpk@master ~]$ hadoop fs -cat /word/part-r-00000
7、参考答案
- 代码清单org.zkpk.hadoop.wordcount.WordMain
- 代码清单org.zkpk.hadoop.wordcount.WordMap
图 53
- 代码清单org.zkpk.hadoop.wordcount.WordReduce
8、总结
完成本实验可掌握用mapreduce计算框架对数据做基本分布式处理。