1.RDD
1.1 定义
1.1.1 数据集:存储数据得计算逻辑
1.1.2 分布式:数据的来源,计算,数据的存储
1.1.3 弹性:
血缘(依赖关系):SPARK可以通过特殊的处理方案简化依赖关系
计算:spark的计算基于内存的,所以性能特别高,可以和磁盘灵活切换
分区:spark在创建默认分区后,可以通过指定的算子来改变分区数量
容错:spark在执行计算时,如果发生了错误,需要进行容错重试处理
1.1.4 数量
Executor:可以通过提交应用的参数进行设定
partition:默认情况下,读取文件采用的是hadoop切片规则
如果是读取内存中的数据,可以根据特定的算法进行设定
可以通过其他算子改变
多个stage的场合,下一个stage的分区数取决于上一个stage最后的分区数,但是可以在相应的算子中进行修改
stage:1(resultStage)+shuffle(shuffleMapSatge)
划分阶段的目的就是为了任务执行的等待,因为shuffle的过程需要落盘
task:原则上一个分区一个任务
2.创建
2.1 从内存中创建
2.2 从存储(文件)创建
2.3 从其他rdd创建
3.属性
3.1 分区
3.2 依赖关系
3.3 分区器
3.4 优先位置
3.5 计算函数
4.使用
4.1 转换
单value
双value:两个rdd
k-v类型
4.2 行动:runJob
相关文章
- 09-23大数据2--hive--hive介绍
- 09-23逻辑回归2-scikit-learn参数介绍
- 09-23Cypress系列(2)- Cypress 框架的详细介绍
- 09-23息队列介绍和SpringBoot2.x整合RockketMQ、ActiveMQ
- 09-23Spark介绍-spark的使用(2)
- 09-23Introduction to Fabric.js. Part 2(介绍Fabric.js第二部分)
- 09-23由浅入深玩转华为WLAN—15 漫游系列(2)同一AC内AP之间二层漫游【拓扑介绍以及初始化配置】
- 09-23pm2常用的命令用法介绍
- 09-23实战SSM_O2O商铺_01项目介绍以及准备工作
- 09-2314-2 阿里云ECS服务器购买介绍