在处理pandas表格数据时,有时会遇到这样的问题:按照某一列聚合后,判断另一列是否出现唯一值,比如安泰杯--跨境电商比赛中,某个商人的ID如果出现在两个国家(xx和yy),则要剔除这样的数据,这就需要我们按照商人ID进行groupby,然后判断国家这一列是否值唯一,不唯一则剔除。
def unique_num(x):
return len(np.unique(x)) #自定义函数
train.groupby(['buyer_id']).agg({'country_id':unique_num})
下面对groupby和agg使用方法进行总结: