开发者学堂课程【Hadoop 分布式计算框架 MapReduc:MapReduce 工作流程(面试重点) 】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/94/detail/1512
MapReduce 工作流程(面试重点)
一、MapReduce详细工作流程(一)
1.待处理文本
/user/input ss.txt 200m
2.客户端 submit() 前,获取待处理数据的信息.然后根据参数配置,形成一个任务分配的规划。
3.提交切片信息
Job.split wc.jar Job.xml
4.计算出 MapTask 数量
5.默认 TextInputFormat
6.逻辑运算
7.向环形缓冲区写入 <k、v> 数据
8.分区、排序
9.溢出到文件(分区且区内有序)
10.Merge 归并排序
11.合并
二、MapReduce 详细工作流程(二)
10.Merge 归并排序
11.Mrappmaster
12.所有 MapTask 任务完成后。启动相应数量的 ReduceTask ,井告知 ReduceTask处理数据范围(数据分区)
13.下载到 ReduceTask 本地磁盘,合并文件,归并排序
14.一次读取一组
15.分组
16.默认 TextOutputFomal