spark历史:伯克利实验室研究项目,基于Hadoop的Mapreduce机制,引入内存管理机制,提高了迭代式计算和交互式中的效率。 spark组件: spark core:spark基本功能,包括任务调度,内存管理,容错机制 内部定义了RDDs(弹性分布式数据集),提供多个APIs调用,为其他组件提供底层服务 spark sql:spark处理结构化数据的库,类似Hive SQL,MySql,主要为企业提供报表统计 spark streaming:实时数据流处理组件,类似Storm,提供API操作实时流数据,企业中用来从Kafka中接收数据做实时统计 Mlib:机器学习功能包,包括聚类,回归,模型评估和数据导入。同时支持集群平台上的横向扩展 Graphx:处理图的库,并进行图的并行计算 Cluster Manager是:spark自带的集群管理 Spark紧密集成的优点: spark底层优化,基于spark底层的组件也得到相应的优化,紧密集成节省了组件的部署,测试时间
相关文章
- 09-17算法竞赛入门经典训练指南题单
- 09-17Unity3D入门
- 09-17Flowable入门系列文章4-流程实例
- 09-17Python之路,第三篇:Python入门与基础3
- 09-17vue入门003~vue项目引入element并创建一个登录页面
- 09-17vue入门003~vue项目引入element并创建一个登录页面
- 09-17零基础入门机器视觉(7)
- 09-17Elasticsearch入门详解(安装与配置)
- 09-17Opencv入门系列九
- 09-17opencv入门