python-read_csv()中的S3阅读器是先将文件下载到磁盘还是使用流式传输?

我正在使用read_csvin Pandas从S3读取数据.我想知道它是否先将文件下载到本地磁盘,然后加载到内存中,还是直接将传入的数据流传输到内存中,而没有中间步骤将其加载到磁盘.

我对Spark的sqlContext.read.load函数有相同的问题.

解决方法:

pandas uses boto用于访问s3,其中does appear to stream是文件数据.

上一篇:python-集群上的pyspark,确保使用了所有节点


下一篇:python-在pyspark的客户端模式下如何设置火花驱动程序maxResultSize?