@1. Spark基础环境搭建

2023-12-30 08:56:40

一. 背景

1. 介绍

至少需要6大技术栈:[mysql + Linux, scala, java, Hadoop, Hive, Kafka]
Spark是处理大规模数据的统一分析引擎
Spark从数据的输入到结果的输出之间所有数据结构都是基于[RDD]的.
RDD这个数据集的元素是分布式的存储在集群的多节点上的.
- 一台机器的内存计算是有限的,但是集群的多节点的内存

2. Spark特点

3. Spark的组件

4. Spark运行方式

二. 理论

1. Spark应用架构

三. 实操

1. 安装local本地单机版(命令行测试)

2. 安装集群版(命令行测试)

3. 基于IDEA开发Spark应用 [重点]