开发者学堂课程【Hadoop 分布式计算框架 MapReduc: MapReduce 核心思想】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/94/detail/1477
MapReduce 核心思想
一、需求:
统计其中每一个单词出现的总次数(查询结果:a-p 一个文件,q-z 一个文件)
1)MapReduce 运算程序一般需要分成2个阶段:Map 阶段和 Reduce 阶段;
2)Map 阶段的并发 Map Task, 完全并行运行,互不相干;
3)Reduce 阶段的并发 Reduce Task,完全互不相干,但是他们的数据依赖于上一个阶段的所有 Map Task 并发实力的输出;
4)MapReduce 编程模型只能包含一个 Map 阶段和一个 Reduce 阶段,如果用户的业务逻辑非常复杂,那么就只能多出一个 MapReduce 程序,串行运行。