shuffle发生在map方法之后,reduce方法之前
优化:由环形缓冲区默认的100m调到200m,将默认的80%的反向溢出调整到90%。 这样就会减少溢写的次数
对溢写的文件提前进行combiner,保证不影响最终逻辑前提,也可以调高combiner文件个数。可求和不可求均值。
归并后存储磁盘可以进行压缩。
reduce拉取map数量可由5个调整为10-20个(考虑内存)。
namenode由默认的8g调大到100g左右(128g内存)
Mapreduce的可压缩的地方
map输入端:文件比较大,大于128m,考虑切片。 bzip2、lzo
map输出端:最求效率,spnny、lzo
reduce输出端:看需求。