Hadoop
一、HDFS —— 分布式文件系统
二、MapReduce —— 分布式计算系统
h:1
h;1
h:<1,1>
h :2
三、Yarn —— 资源调度系统
Resource Manager 和 NodeManager
Spark
一、spark集群结构
RDD —— 弹性分布式数据集
rdd = sc.parallelize([1,2,3,4,5,6])
rdd.collect()
--> [1,2,3,4,5,6]
rows = sc.textFile('/user/hadoop/hello.txt')
rows = sc.textFile('/user/hadoop/*')
RDD的计算方式(俩类算子):
1. 变换(Transformations):
特点: 懒执行,变换只是一些指令集并不会去马上执行,需要等到有Actions操作的时候才会真正的据算结果
比如: map() flatMap() groupByKey reduceByKey
2. 操作(Actions):
特点: 立即执行
比如: count() take() collect() top() first()
content = sc.parallelize([1,2,3,4])
content.persist()
content.is_cached
content.unpersist()
StorageLevel.MEMORY_AND_DISK
StorageLevel.MEMORY
StorageLevel.DISK
rdd的持久化算子有三种:
1、cache:将数据持久化到内存
2、persist:可以将数据持久化到磁盘,也可以将数据持久化到内存
3、checkpoint:将数据持久化到磁盘。
persist的几个参数: