python-在pyspark的客户端模式下如何设置火花驱动程序maxResultSize?

我知道当您在pyspark中处于客户端模式时,您无法在脚本中设置配置,因为一旦加载库,JVM即会启动.

因此,设置配置的方法是实际去编辑启动它的shell脚本:spark-env.sh …根据此文档here.

如果要更改驱动程序的最大结果大小,通常可以这样做:spark.driver.maxResultSize.这与spark-env.sh文件中的内容等效吗?

一些环境变量很容易设置,例如SPARK_DRIVER_MEMORY显然是spark.driver.memory的设置,但是spark.driver.maxResultSize的环境变量是什么?谢谢.

解决方法:

配置文件为conf / spark-default.conf.

如果conf / spark-default.conf不存在

cp conf/spark-defaults.conf.template conf/spark-defaults.conf

添加类似的配置

spark.driver.maxResultSize  2g

有许多可用的配置,请参考Spark Configuration

上一篇:python-read_csv()中的S3阅读器是先将文件下载到磁盘还是使用流式传输?


下一篇:34岁Android程序员裸辞,2021新一波程序员跳槽季