python – PySpark DataFrame上的Sum运算在type为fine时给出TypeError

我在PySpark中有这样的DataFrame(这是take(3)的结果,数据帧非常大):

sc = SparkContext()
df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)]

同一所有者将拥有更多行.我需要做的是在分组之后将每个所有者的字段a_d的值相加为

b = df.groupBy('owner').agg(sum('a_d').alias('a_d_sum'))

但这会引发错误

TypeError: unsupported operand type(s) for +: ‘int’ and ‘str’

但是,架构包含双精度值,而不是字符串(这来自printSchema()):

root
|-- owner: string (nullable = true)
|-- a_d: double (nullable = true)

那么这里发生了什么?

解决方法:

您没有使用正确的求和函数,而是使用内置函数sum(默认情况下).

所以内置函数不起作用的原因是
这是一个可迭代的参数,其中传递的列的名称是一个字符串,内置函数不能应用于字符串. Ref. Python Official Documentation.

您需要从pyspark.sql.functions导入正确的函数:

from pyspark.sql import Row
from pyspark.sql.functions import sum as _sum

df = sqlContext.createDataFrame(
    [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)]
)

df2 = df.groupBy('owner').agg(_sum('a_d').alias('a_d_sum'))
df2.show()

# +-----+-------+
# |owner|a_d_sum|
# +-----+-------+
# |   u1|    0.4|
# |   u2|    0.0|
# +-----+-------+
上一篇:mysql – 使用for循环数组时使用INSERT INTO表ON DUPLICATE KEY时出错


下一篇:python – PySpark:StructField(…,…,False)总是返回`nullable = true`而不是`nullable = false`