我们开始来看Combiner,Combiner是干嘛用的?
我们知道mapper处理完数据以后,会把数据分区,分区以后每个分区都会排序,通过快排方法,
然后排序以后,会经历一个分区合并的过程,这个合并是各自的分区内合并
比如在分区1中,有两个这样的数据(a,1) (a,1) 经过combiner以后,就会变成(a,2)
这样的情况.
然后我们说,为什么mapper,分区以后,要进行数据的combiner呢?
比如如果,(a,1)..这样的数据有10000个那么,不合并的话,mapper的数据输出的时候,就会有10000条,
但是如果合并了以后,那么,就只会输出一条数据(a,10000) 这样效率就高很多了