Spark学习摘记 —— Spark行动操作API归纳

本文参考

参考《Spark快速大数据分析》动物书中的第三章"RDD编程",前一篇文章已经概述了转化操作相关的API,本文再介绍行动操作API

和转化操作API不同的是,行动操作API只能作用于一个RDD

Spark转化操作API归纳:

环境

idea + spark 2.4.5 + scala 2.11.12

RDD均通过SparkContext的parallelize()函数创建

collect()函数

目的:

返回RDD中的所有元素

该函数会将所有元素放入驱动器进程中,只有当整个数据集能在单台机器的内存中放得下时,才能使用,不适宜用在大规模数据集,因此大多数情况下用于本地开发测试

代码:

val testList = List(1, 2, 3, 3)
val testRdd = sc.parallelize(testList)
testRdd.collect().foreach(ele => print(s"$ele "))

?

?

?

Spark学习摘记 —— Spark行动操作API归纳

上一篇:Sql动态添加字段的正确姿势


下一篇:C#编写gRPC应用程序所需的概念