MapReduce的shuffle及优化

shuffle发生在map方法之后,reduce方法之前

 

 

 

 

 

优化:由环形缓冲区默认的100m调到200m,将默认的80%的反向溢出调整到90%。  这样就会减少溢写的次数

   对溢写的文件提前进行combiner,保证不影响最终逻辑前提,也可以调高combiner文件个数。可求和不可求均值。

   归并后存储磁盘可以进行压缩。

   reduce拉取map数量可由5个调整为10-20个(考虑内存)。

           namenode由默认的8g调大到100g左右(128g内存)

 

Mapreduce的可压缩的地方

  map输入端:文件比较大,大于128m,考虑切片。  bzip2、lzo

  map输出端:最求效率,spnny、lzo

  reduce输出端:看需求。

  

上一篇:配置Hadoop支持LZO


下一篇:Hadoop支持LZO压缩配置