大数据之-Hadoop3.x_MapReduce_Combiner概述---大数据之hadoop3.x工作笔记0118

2024-02-23 20:18:10

我们开始来看Combiner,Combiner是干嘛用的?

我们知道mapper处理完数据以后,会把数据分区,分区以后每个分区都会排序,通过快排方法,

然后排序以后,会经历一个分区合并的过程,这个合并是各自的分区内合并

比如在分区1中,有两个这样的数据(a,1) (a,1) 经过combiner以后,就会变成(a,2)

这样的情况.

然后我们说,为什么mapper,分区以后,要进行数据的combiner呢?

比如如果,(a,1)..这样的数据有10000个那么,不合并的话,mapper的数据输出的时候,就会有10000条,

但是如果合并了以后,那么,就只会输出一条数据(a,10000) 这样效率就高很多了

码农公寓