我试图将Spark RDD转换为DataFrame.我已经看到了传递方案的文档和示例
sqlContext.CreateDataFrame(rdd,schema)函数.
但我有38列或字段,这将进一步增加.如果我手动给出指定每个字段信息的模式,那将会是如此繁琐的工作.
有没有其他方法可以在不知道先前列的信息的情况下指定模式.
解决方法:
看到,
在Spark中有两种方法可以将RDD转换为DF.
toDF()和createDataFrame(rdd,schema)
我会告诉你如何动态地做到这一点.
toDF()
toDF()命令为您提供了将RDD [Row]转换为Dataframe的方法.关键是,对象Row()可以接收** kwargs参数.所以,有一种简单的方法可以做到这一点.
from pyspark.sql.types import Row
#here you are going to create a function
def f(x):
d = {}
for i in range(len(x)):
d[str(i)] = x[i]
return d
#Now populate that
df = rdd.map(lambda x: Row(**f(x))).toDF()
这样您就可以动态创建数据框.
createDataFrame(rdd,schema)
其他方法是创建动态模式.怎么样?
这条路:
from pyspark.sql.types import StructType
from pyspark.sql.types import StructField
from pyspark.sql.types import StringType
schema = StructType([StructField(str(i), StringType(), True) for i in range(32)])
df = sqlContext.createDataFrame(rdd, schema)
第二种方式更干净…
这就是你如何动态创建数据帧.