开发者学堂课程【大数据实时计算框架 Spark 快速入门: Spark 操作算子本质、RDD 容错_1】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/100/detail/1662
Spark 操作算子本质、RDD 容错_1
内容介绍:
一、RDD 是基础
二、五大特性
三、流程示意
一、RDD 是基础
Resilient Distributed dataset
弹性分布式数据集
二、五大特性
A list of partitions
A function for computing each split
A list of dependencies on other RDDs
Optionally, a Partitioner for key-value RDDs
Optionally, a list of preferred locations to compute each split on
Spark 进行时:
三、流程示意
分布式文件系统( File system )-加载数据集
transformations 延迟执行-针对 RDD 的操作
Action 触发执行