MapReduce编程-MapReduce的高级特性

MapReduce的高级特性

1、序列化:

接口Writable(类似Java的序列化)
功能:实现自定义的数据类型
(1)举例:创建一个Employee类,封装员工数据,作为Map输出的value(v2,k2使用员工号)

2、排序:默认的排序规则:数字---升序

字符串---按照字典顺序
对象:按照员工的薪水
按照K2进行排序
自定义排序排序规则:数字、字符串、对象(WritableComparable)

3、分区:Partition(非常重要)

默认:MapReduce只有一个分区(一个分区是一个输出文件)
根据Map的输出建立分区<k2,v2>
举例:根据员工的部门号建立分区

4、Combiner合并,是一种特殊的Reduce;是MapReduce的一种优化的方式

(1)有些情况不能使用Combiner:求平均值
(2)不管有没有Combiner不能改变最后运行结果
(3)不管有没有Combiner,都不应该改变原有的处理逻辑。(案例:倒排索引)

5、MapReduce核心:Shuffle洗牌

上一篇:MapReduce WordCount Combiner程序


下一篇:#combiner使用及错误 #案例分析