MapReduce的高级特性
1、序列化:
接口Writable(类似Java的序列化)
功能:实现自定义的数据类型
(1)举例:创建一个Employee类,封装员工数据,作为Map输出的value(v2,k2使用员工号)
2、排序:默认的排序规则:数字---升序
字符串---按照字典顺序
对象:按照员工的薪水
按照K2进行排序
自定义排序排序规则:数字、字符串、对象(WritableComparable)
3、分区:Partition(非常重要)
默认:MapReduce只有一个分区(一个分区是一个输出文件)
根据Map的输出建立分区<k2,v2>
举例:根据员工的部门号建立分区
4、Combiner合并,是一种特殊的Reduce;是MapReduce的一种优化的方式
(1)有些情况不能使用Combiner:求平均值
(2)不管有没有Combiner不能改变最后运行结果
(3)不管有没有Combiner,都不应该改变原有的处理逻辑。(案例:倒排索引)