切片和 MapTask 并行度决定机制| 学习笔记

开发者学堂课程【Hadoop 分布式计算框架 MapReduce:切片和 MapTask 并行度决定机制】学习笔记,

与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/94/detail/1497


切片和 MapTask 并行度决定机制


内容介绍

1. 问题引出

2. MapTask 并行度决定机制

3. 切片和 MapTask 并行度决定机制图示分析

 

l 1.问题引出

MapTask 的并行度决定 Map 阶段的任务处理并发度,进而影响到整个Job的处理速度。

思考:1G 的数据,启动8个 MapTask, 可以提高集群的并发处理能力。那么1K的数据,也启动8个 MapTask ,会提高集群性能吗?MapTask 并行任务是否越多越好呢?哪些因素影响了 MapTask 并行度?


l 2. MapTask 并行度决定机制

数据块:Block 是 HDFS 物理上把数据分成一块一块。

数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。


l 3.切片和 MapTask 并行度决定机制图示分析

1) 一个 Job 的 Map 阶段并行度由客户端在提交 Job 时的切片数决定

2)每一个 Split 切片分配一个 MapTask 并行实例处理

3)默认情况下,切片大小 =BlockSize

4)切片时不考虑数据集整体,而是逐个针对每一个文件单独切片

切片和 MapTask 并行度决定机制| 学习笔记

上一篇:Apache Hive--与 RDBMS 区别| 学习笔记


下一篇:我的Java开发学习之旅------>System.nanoTime与System.currentTimeMillis的区别