1,大数据概论

1.大数据概述

 

1.大数据概述

一.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。

1、HDFS(分布式文件系统)
1,大数据概论
提供分布式数据存储、集中管理功能,为hdaoop生态提供数据基础
2、MapReduce(分布式计算框架)
1,大数据概论
输入分片(input split)->map阶段->shuffle阶段->reduce阶段
大规模并行数据处理的数据模型,使程序运行在分布式系统
3、Yarn(分布式资源管理器)
YARN作为统一资源管理器,并在此基础上管理协调其他不同的各类框架,灵活分配合理调用
可以一个集群上的不同应用负载混搭,有效提高了集群的利用率。

二、对比Hadoop与Spark的优缺点。

表达能力

MapReduce使用Map和Reduce,难以描述复杂处理过程而Spark除Map和Reduce外,还支持RDD/DataFrame/DataSet等多种数据模型操作,编程模型更加灵活。

磁盘I/O效率

MapReduce直接对磁盘进行I/O,而Spark中间结果存储在内存中效率更高

任务延迟

MapReduce多次I/O增加上下文切换耗能,Spark基于DAG任务调度执行机制,不涉及磁盘IO延迟,迭代运算更快。

三.如何实现Hadoop与Spark的统一部署?

结合Yarn资源管理器基础,进行多种框架混合使用,可以用Spark框架替换MapReduce框架提高计算效率和计算的表达能力,并调整hadoop中其他框架与spark发生资源争夺的情况,降低资源抢占发生的概率。

上一篇:蓝桥c++2013真题:前缀判断(代码填空)


下一篇:C++常用函数总结