Spark入门：Spark运行架构(Python版)

2024-02-06 14:10:16

此文为个人学习笔记如需系统学习请访问http://dblab.xmu.edu.cn/blog/1709-2/

基本概念

*  RDD：是弹性分布式数据集（Resilient Distributed Dataset）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型；
*  DAG：是Directed Acyclic Graph（有向无环图）的简称，反映RDD之间的依赖关系；
*  Executor：是运行在工作节点（Worker Node）上的一个进程，负责运行任务，并为应用程序存储数据；
*  应用：用户编写的Spark应用程序；
*  任务：运行在Executor上的工作单元；
*  作业：一个作业包含多个RDD及作用于相应RDD上的各种操作；
*  阶段：是作业的基本调度单位，一个作业会分为多组任务，每组任务被称为“阶段”，或者也被称为“任务集”。

架构设计、Spark运行基本流程——没看很懂回头再看

码农公寓

此文为个人学习笔记如需系统学习请访问http://dblab.xmu.edu.cn/blog/1709-2/

基本概念

架构设计、Spark运行基本流程——没看很懂回头再看

相关文章