pandas学习-Task09

Datewhale学习内容: https://datawhalechina.github.io/joyful-pandas/build/html/%E7%9B%AE%E5%BD%95/ch9.html

本次学习非常的匆忙,笔记有些简陋。综合练习复习时会做补充。

练习题2: 钻石数据集

df = pd.read_csv('joyful-pandas-master/data/diamonds.csv')

数据查看:

pandas学习-Task09

1、分别对 df.cut 在 object 类型和 category 类型下使用 nunique 函数,并比较它们的性能。

【我的解答】:

%timeit -n 30 df.cut.astype('category').nunique()
输出:2.71 ms ± 297 µs per loop (mean ± std. dev. of 7 runs, 30 loops each)

%timeit -n 30 df.cut.nunique()
输出:1.83 ms ± 267 µs per loop (mean ± std. dev. of 7 runs, 30 loops each)

2、钻石的切割质量可以分为五个等级,由次到好分别是 Fair, Good, Very Good, Premium, Ideal ,纯净度有八个等级,由次到好分别是 I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF ,请对切割质量按照 由好到次 的顺序排序,相同切割质量的钻石,按照纯净度进行 由次到好 的排序。

【我的解答】:

df.cut.astype('category')
df.sort_values(['cut','clarity'],ascending=[False,True])

pandas学习-Task09
注意:修改列的类型为category后,需要赋予相应的大小关系。
【参考答案】:

df.cut = df.cut.astype('category').cat.reorder_categories([
       'Fair', 'Good', 'Very Good', 'Premium', 'Ideal'],ordered=True)
df.clarity = df.clarity.astype('category').cat.reorder_categories([
       'I1', 'SI2', 'SI1', 'VS2', 'VS1', 'VVS2', 'VVS1', 'IF'],ordered=True)
res = df.sort_values(['cut', 'clarity'], ascending=[False, True])
res

pandas学习-Task09

3、分别采用两种不同的方法,把 cut, clarity 这两列按照 由好到次 的顺序,映射到从0到n-1的整数,其中n表示类别的个数。

【复习】利用了cat对象,每一个序列的类别会被赋予唯一的整数编号,他们的编号取决于cat.categories中的顺序,该属性可以通过codes访问。

df.cut = df.cut.cat.reorder_categories(df.cut.cat.categories[::-1])
df.clarity = df.clarity.cat.reorder_categories(df.clarity.cat.categories[::-1])
df.clarity = df.clarity.cat.reorder_categories(df.clarity.cat.categories[::-1])

pandas学习-Task09

4、对每克拉的价格按照分别按照分位数(q=[0.2, 0.4, 0.6, 0.8])与[1000, 3500, 5500, 18000]割点进行分箱得到五个类别 Very Low, Low, Mid, High, Very High ,并把按这两种分箱方法得到的 category 序列依次添加到原表中。

【我的解答】:
这是考察了区间类别的用法。cut与qcut,前者是按照传入的整数n来等间距分段,后者是根据等分位数来分段。

avg = df.price / df.carat
q = [0, 0.2, 0.4, 0.6, 0.8, 1]
df['avg_qcut'] = pd.qcut(avg, q=q, labels=['Very Low', 'Low', 'Mid', 'High', 'Very High'])

point = [-np.infty, 1000, 3500, 5500, 18000, np.infty]
df['avg_cut'] = pd.cut(avg, bins=point, labels=['Very Low', 'Low', 'Mid', 'High', 'Very High'])
df

pandas学习-Task09

5、第4问中按照整数分箱得到的序列中,是否出现了所有的类别?如果存在没有出现的类别请把该类别删除。

df.avg_cut.unique()
df.avg_cut = df.avg_cut.cat.remove_categories(['Very Low', 'Very High'])
df.avg_cut

pandas学习-Task09

6、对第4问中按照分位数分箱得到的序列,求每个样本对应所在区间的左右端点值和长度。
这里考察了区间的构造。一个区间具备三个要素:左端点、右端点和端点的开闭状态,其中开闭状态可以指定right, left, both, neither中的一类。

上一篇:linux常用命令—cut


下一篇:Link Cut Tree学习笔记