作业03 特征工程

作业03 特征工程
这次的特征工程有点难度。
首先是搭建环境。Gensim安装总是出错。
作业03 特征工程
作业03 特征工程
二个方法解决:
用清华镜像安装
下WHL包,安装
作业03 特征工程

知识点:
分组统计特征agg的使用非常重要,在此进行代码示例,详细请参考: http://joyfulpandas.datawhale.club/Content/ch4.html
请注意{}和[]的使用
分组标准格式:
df.groupby(分组依据)[数据来源].使用操作

先分组,得到
gb = df.groupby([‘School’, ‘Grade’])

1,使用多个函数
gb.agg([‘具体方法(如内置函数)’])

如gb.agg([‘sum’])
,2,对特定的列使用特定的聚合函数
gb.agg({‘指定列’:‘具体方法’})

如gb.agg({‘Height’:[‘mean’,‘max’], ‘Weight’:‘count’})

3,使用自定义函数
gb.agg(函数名或匿名函数)

如gb.agg(lambda x: x.mean()-x.min())

4,聚合结果重命名
gb.agg([ (‘重命名的名字’,具体方法(如内置函数、自定义函数)) ])

如gb.agg([(‘range’, lambda x: x.max()-x.min()), (‘my_sum’, ‘sum’)])
另外需要注意,使用对一个或者多个列使用单个聚合的时候,重命名需要加方括号,否则就不知道是新的名字还是手误输错的内置函数字符串:
下述代码主要使用了
一种是df.groupby(‘id’).agg{‘列名’:‘方法’},另一种是df.groupby(‘id’)[‘列名’].agg(字典)

下面是报错例:
xy_d_rate = temp1.groupby(‘ship’)[‘hc_xy_s’].agg(‘hc_xy_s_max’: ‘max’,
)
xy_d_rate = xy_d_rate.reset_index()
d_d_rate = temp1.groupby(‘ship’)[‘hc_d_s’].agg(‘hc_d_s_max’: ‘max’,
)
作业03 特征工程

改为,顺利跑过
xy_d_rate = temp1.groupby(‘ship’)[‘hc_xy_s’].agg([(‘hc_xy_s_max’, ‘max’,
)])
xy_d_rate = xy_d_rate.reset_index()
d_d_rate = temp1.groupby(‘ship’)[‘hc_d_s’].agg([(‘hc_d_s_max’, ‘max’,
)])

作业03 特征工程

上一篇:tweepy 使用笔记


下一篇:canvas_29 动画-圆形进度条