-
Partition List
分片列表, 记录 RDD 的分片, 可以在创建 RDD 的时候指定分区数目, 也可以通过算子来生成新的 RDD 从而改变分区数目 -
Compute Function
为了实现容错, 需要记录 RDD 之间转换所执行的计算函数 -
RDD Dependencies
RDD 之间的依赖关系, 要在 RDD 中记录其上级 RDD 是谁, 从而实现容错和计算 -
Partitioner
为了执行 Shuffled 操作, 必须要有一个函数用来计算数据应该发往哪个分区 -
Preferred Location
优先位置, 为了实现数据本地性操作, 从而移动计算而不是移动存储, 需要记录每个 RDD 分区最好应该放置在什么位置
相关文章
- 12-31给 div 元素添加背景色、设置元素的 id 、 使用 id 属性来设定元素的样式
- 12-31XmlDocument根据节点的属性值获取节点
- 12-31set-cookie中的SameSite属性
- 12-31RDD 的算子总结
- 12-31Vue的computed属性中方法带参数的写法记录
- 12-31Spark中将RDD转换成DataFrame的两种方法
- 12-31没有属性样板的Python类
- 12-31在Attribute Inspector 上显示自定义的控件的属性
- 12-31Spring中的@Transactional(rollbackFor = Exception.class)属性详解
- 12-31vue + iview的render添加ref属性