Spark 操作算子本质、RDD 容错_1 | 学习笔记

开发者学堂课程【大数据实时计算框架 Spark 快速入门Spark 操作算子本质、RDD 容错_1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/100/detail/1662


Spark 操作算子本质、RDD 容错_1


内容介绍:

一、RDD 是基础

二、五大特性

三、流程示意


一、RDD 是基础

Resilient Distributed dataset

弹性分布式数据集


二、五大特性

A list of partitions

A function for computing each split

A list of dependencies on other RDDs

Optionally, a Partitioner for key-value RDDs

Optionally, a list of preferred locations to compute each split on

Spark 进行时:

Spark 操作算子本质、RDD 容错_1 | 学习笔记


三、流程示意

分布式文件系统( File system )-加载数据集

transformations 延迟执行-针对 RDD 的操作

Action 触发执行

上一篇:gitlab配置ssh密钥及简单使用


下一篇:SSH配置—Linux下实现免密码登录