pyspark join 出现重复列的问题

设有两个dataframe:df1,df2

如果df3=df1.join(df2,df1.device_number=df2.device_number,"inner")

df3就会出现两个相同列 device_number

此时改成df3=df1.join(df2,“device_number”,"inner")

就只有一个device_number了

如果想多列key则

df.join(df4, ['name', 'age'])
pyspark join 出现重复列的问题pyspark join 出现重复列的问题 sisiel 发布了14 篇原创文章 · 获赞 5 · 访问量 2万+ 私信 关注
上一篇:关于考题和书籍上知识运用百度AI文本相似度处理的代码


下一篇:2020-12-26