介绍2

1.RDD
1.1 定义
1.1.1 数据集:存储数据得计算逻辑
1.1.2 分布式:数据的来源,计算,数据的存储
1.1.3 弹性:
血缘(依赖关系):SPARK可以通过特殊的处理方案简化依赖关系
计算:spark的计算基于内存的,所以性能特别高,可以和磁盘灵活切换
分区:spark在创建默认分区后,可以通过指定的算子来改变分区数量
容错:spark在执行计算时,如果发生了错误,需要进行容错重试处理
1.1.4 数量
Executor:可以通过提交应用的参数进行设定
partition:默认情况下,读取文件采用的是hadoop切片规则
如果是读取内存中的数据,可以根据特定的算法进行设定
可以通过其他算子改变
多个stage的场合,下一个stage的分区数取决于上一个stage最后的分区数,但是可以在相应的算子中进行修改
stage:1(resultStage)+shuffle(shuffleMapSatge)
划分阶段的目的就是为了任务执行的等待,因为shuffle的过程需要落盘
task:原则上一个分区一个任务
2.创建
2.1 从内存中创建
2.2 从存储(文件)创建
2.3 从其他rdd创建
3.属性
3.1 分区
3.2 依赖关系
3.3 分区器
3.4 优先位置
3.5 计算函数
4.使用
4.1 转换
单value
双value:两个rdd
k-v类型
4.2 行动:runJob

上一篇:学习日志之software engneering(2)——git


下一篇:jenkins pipeline持续集成