将RDD转换为可迭代的:PySpark?

我有一个RDD,它是通过加载文本文件并对其进行预处理而创建的.我不想收集它并将其保存到磁盘或内存(整个数据)中,而是想将其传递给python中的其他某个函数,而另一个函数是可迭代的,因此会消耗数据.

这怎么可能?

data =  sc.textFile('file.txt').map(lambda x: some_func(x))

an_iterable = data. ##  what should I do here to make it give me one element at a time?
def model1(an_iterable):
 for i in an_iterable:
  do_that(i)

model(an_iterable)

解决方法:

我相信您想要的是toLocalIterator()

上一篇:初始化SparkContext时jvm错误中不存在pyspark错误


下一篇:二柱子四则预算生成进阶