MapReduce简介与基础

MapReduce简介

  1. MapReduce是一种编程模型,是面向大数据并行处理的计算模型、框架和平台。
  2. MapReduce有着分布可靠、封装了细节,基于框架API编程、跨语言的优点。
  3. 在各大运营商,中大型互联网公司、金融银行类公司、各大云平台的分布式计算中都可以应用。
  4. 代码实现:经典案例WordCount

MapReduce的执行流程

MapReduce简介与基础

 

  1. Map-per阶段
    1. 将文件分片split
    2. 去除文件的每行line
  2. Map阶段
    1. 按需求将数据打散
    2. 按Partition进行分区、排序
    3. 进行combine
  3. Reduce阶段
    1. 将同分区数据聚合在一起
    2. 排序和合并
    3. 按需求规约
    4. 输出成结果文件

关于Shuffle

  1. Shuffle: 数据混洗
  2. 将同分区的数据聚合在一起,排序,合并
上一篇:HADOOP 优化(4):MapReduce生产经验


下一篇:一起重新开始学大数据-hadoop篇-day47 mapreduce(总)