pyspark.RDD.toLocalIterator()
RDD.toLocalIterator(prefetchPartitions
=False)
它是PySpark中RDD的一个方法。
返回一个包含该RDD中所有元素的迭代器。
这个迭代器消耗的内存和这个RDD中最大分区的内存一样大。
如果选择预选,即prefetchPartitions
设为True,那它可能最多消耗两个最大分区的内存。
用这个函数可以方便地将RDD中的数据转换为一个迭代器,方便的进行遍历操作。
参数:
参数名:prefetchPartitions
参数类型:bool型 ,默认为False
参数是否必选:可选
Spark是否需要在需要的时候预先获取下一个分区
例如:
rdd = sc.parallelize(range(10))
[x for x in rdd.toLocalIterator()]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]