python – 有没有办法在PySpark中读取文本文件时控制分区数量

我在PySpark中使用以下命令读取文本文件

rating_data_raw = sc.textFile("/<path_to_csv_file>.csv")

有没有办法指定RDD rating_data_raw应分成的分区数?我想指定大量的分区以实现更高的并发性.

解决方法:

正如其他用户所说,您可以在读取文件时设置将创建的最小分区数,方法是在可选参数minPartitions of textFile中进行设置.

rating_data_raw = sc.textFile("/<path_to_csv_file>.csv", minPartitions=128)

另一种实现此目的的方法是使用repartitioncoalesce,如果需要减少可能使用的分区数量,则可以使用重新分区.

rating_data_raw = sc.textFile("/<path_to_csv_file>.csv").repartition(128)
上一篇:python – 在PySpark ML中创建自定义Transformer


下一篇:python – 是否有可能在Pyspark中继承DataFrame?