Pandas dataframe 和 spark dataframe 转换

想要随意的在pandas 和spark 的dataframe之间进行转换,list类型是关键,因为想要创建pandas的dataframe,方法之一就是使用list类型的data进行创建,而如果要创建spark的dataframe, list也是一种方法。

所以呢,下面的代码我添加了一些注释,方便使用。

import pandas as pd
from pyspark.sql.session import SparkSession
#初始化spark
spark=SparkSession.builder.appName("test").getOrCreate()
#sc=spark.sparkContext
#初始化一个pandas的dataframe
ll=pd.DataFrame([[1,2],[3,4]],columns=['a','b'])
print(ll)
#将pandas的dataframe转换为list类型,即就是只保留dataframe的数据部分。
out=ll.values.tolist()
print(out)
#通过list 创建对应的spark dataframe
df=spark.createDataFrame(out,['a','b'])
df.show()

  

 

上一篇:办公自动化:轻松提取PDF页面数据,并生成Excel文件(代码实战)!


下一篇:基于DataFrame两字段使用pyechaerts绘制网络关系图,并封装函数直接调用