【Spark】【RDD】从HDFS创建RDD

1.在HDFS根目录下创建目录(姓名学号)

hdfs dfs -mkdir /zwj25
hdfs dfs -ls /

访问 http://[IP]:50070

【Spark】【RDD】从HDFS创建RDD

【Spark】【RDD】从HDFS创建RDD

【Spark】【RDD】从HDFS创建RDD

【Spark】【RDD】从HDFS创建RDD

2.上传本地文件到HDFS

hdfs dfs -put file.txt /zwj25

【Spark】【RDD】从HDFS创建RDD

3.进入spark4-shell

var hdfsrdd=sc.textFile("/zwj25/file.txt")
hdfsrdd.collect
hdfsrdd.partitions
hdfsrdd.partitions.size

sc.defaultMinPartitions=min(sc.defaultParallelism,2)

rdd分区数=max(hdfs文件的block数目,sc.defaultMinPartitions)

【Spark】【RDD】从HDFS创建RDD

【Spark】【RDD】从HDFS创建RDD

上一篇:【Spark】【RDD】初次学习RDD 笔记 汇总


下一篇:spark的转换算子及一个案例