@1. Spark基础环境搭建

一. 背景

1. 介绍

  • 至少需要6大技术栈:[mysql + Linux, scala, java, Hadoop, Hive, Kafka]
    @1. Spark基础环境搭建
  • Spark是处理大规模数据的统一分析引擎
  • Spark从数据的输入到结果的输出之间所有数据结构都是基于[RDD]的.
    @1. Spark基础环境搭建
  • RDD这个数据集的元素是分布式的存储在集群的多节点上的.
    • 一台机器的内存计算是有限的,但是集群的多节点的内存

2. Spark特点

3. Spark的组件

4. Spark运行方式

二. 理论

1. Spark应用架构

三. 实操

1. 安装local本地单机版(命令行测试)

2. 安装集群版(命令行测试)

3. 基于IDEA开发Spark应用 [重点]

上一篇:SparkCore 对共享变量也提供了两种支持:1. 累加器 2. 广播变量


下一篇:来点八股文(一) 分布式理论及应用