python-读取pySpark中的文件范围

我需要在pySpark中读取连续文件.以下对我有用.

from pyspark.sql import SQLContext    
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)

我如何读取文件8-14?

解决方法:

使用花括号.

file =“ events.parquet / exportDay = 201509 {08,09,10,11,12,13,14}”

这是一个关于堆栈溢出的类似问题:Pyspark select subset of files using regex glob.他们建议要么使用大括号,要么执行多次读取,然后合并对象(无论是RDD还是数据帧,还是应该有某种方式).

上一篇:python-unionAll导致*


下一篇:34-基础篇:关于Linux网络,你必须知道这些(下)