Spark RDD到DataFrame python

我试图将Spark RDD转换为DataFrame.我已经看到了传递方案的文档和示例
sqlContext.CreateDataFrame(rdd,schema)函数.

但我有38列或字段,这将进一步增加.如果我手动给出指定每个字段信息的模式,那将会是如此繁琐的工作.

有没有其他方法可以在不知道先前列的信息的情况下指定模式.

解决方法:

看到,

在Spark中有两种方法可以将RDD转换为DF.

toDF()和createDataFrame(rdd,schema)

我会告诉你如何动态地做到这一点.

toDF()

toDF()命令为您提供了将RDD [Row]转换为Dataframe的方法.关键是,对象Row()可以接收** kwargs参数.所以,有一种简单的方法可以做到这一点.

from pyspark.sql.types import Row

#here you are going to create a function
def f(x):
    d = {}
    for i in range(len(x)):
        d[str(i)] = x[i]
    return d

#Now populate that
df = rdd.map(lambda x: Row(**f(x))).toDF()

这样您就可以动态创建数据框.

createDataFrame(rdd,schema)

其他方法是创建动态模式.怎么样?

这条路:

from pyspark.sql.types import StructType
from pyspark.sql.types import StructField
from pyspark.sql.types import StringType

schema = StructType([StructField(str(i), StringType(), True) for i in range(32)])

df = sqlContext.createDataFrame(rdd, schema)

第二种方式更干净…

这就是你如何动态创建数据帧.

上一篇:spark使用


下一篇:Spark机器学习基础-特征工程