@1. Spark基础环境搭建2023-12-30 08:56:40一. 背景 1. 介绍 至少需要6大技术栈:[mysql + Linux, scala, java, Hadoop, Hive, Kafka] Spark是处理大规模数据的统一分析引擎 Spark从数据的输入到结果的输出之间所有数据结构都是基于[RDD]的. RDD这个数据集的元素是分布式的存储在集群的多节点上的. 一台机器的内存计算是有限的,但是集群的多节点的内存 2. Spark特点 3. Spark的组件 4. Spark运行方式 二. 理论 1. Spark应用架构 三. 实操 1. 安装local本地单机版(命令行测试) 2. 安装集群版(命令行测试) 3. 基于IDEA开发Spark应用 [重点] 上一篇:SparkCore 对共享变量也提供了两种支持:1. 累加器 2. 广播变量下一篇:来点八股文(一) 分布式理论及应用