初始Spark

参考网址:https://www.cnblogs.com/qingyunzong/p/8886338.html

Spark是基于内存的计算框架

1.为什么要学习Spark?

可以解决迭代计算,融入hadoop生态圈,弥补mr计算框架的不足

2.特点

(1)speed 速度快

基于内存计算,使用有向无环图(DAG)程序调度,查询优化器,物理执行器。速度比mr快100倍

(2)ease of use 容易使用

支持scala,java,python编程

(3)generality 通用

Spark提供了统一的解决方案:批处理,交互式查询(Spark SQL),实时流处理(Spark Streaming),机器学习(Spark MLIb)和图计算(GraphX)

(4)runs everywhere 兼容性好

自带standalone资源管理和任务调度器,同时可以兼容hadoop的yarn和apache的mesos

可以兼容hadoop生态圈,如hdfs,hive,hbase

3.Spark的组成

Spark Core:Spark核心,类似于MR,对数据进行离线处理,批处理

Spark SQL:交互式查询

Spark Streaming :流式处理框架

Spark MLib:机器学习

GraphX:图计算

上一篇:Flink实例(120):flink-sql使用(二十六)一文了解基于Flink构建流批一体数仓的技术点(三)


下一篇:Spark3大数据实时处理-Streaming+Structured Streaming 实战