我需要在pySpark中读取连续文件.以下对我有用.
from pyspark.sql import SQLContext
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)
我如何读取文件8-14?
解决方法:
使用花括号.
file =“ events.parquet / exportDay = 201509 {08,09,10,11,12,13,14}”
这是一个关于堆栈溢出的类似问题:Pyspark select subset of files using regex glob.他们建议要么使用大括号,要么执行多次读取,然后合并对象(无论是RDD还是数据帧,还是应该有某种方式).