一、pd.filter函数
1.介绍
pd.filter
函数根据指定的索引标签对数据框行、或列进行数据筛选(子集查询)。
使用语法为:
DataFrame.filter(items=None,
like=None, -- str
regex=None, -- str
axis=None)
类似于 df.loc、df.iloc
函数所实现的功能。
参数说明:
items -- 对列进行筛选 轴标签列表
regex -- 正则匹配
like -- 进行筛选 模糊名查询
axis=0 -- 按行
axis=1 -- 按列
注意:仅按照标签筛选,不对数据内容进行过滤!
2.pd.filter
# 构建测试集
import pandas as pd
import numpy as np
df = pd.DataFrame(np.array(([1,2,3],[4,5,6])),
index=['mouse','rabbit'],
columns=['one','two','three'])
# 过滤列
df.filter(items=['one','three'])
df.filter(['one'])
# 正则
df.filter(regex='e$', axis=1) # 以e结尾
df.filter(regex='e$', axis=0)
df.filter(regex='Q') # 包含Q
# 相似
df.filter(like='bb', axis=0) # 按行
# 轴标签
df.filter(['one','two'], axis=1)
# 混合使用
df.filter(regex='^r', axis=0).filter(like='o', axis=1) # r开头的行 包含o的列
注意:其中的参数 items/like/regex
被强制执行为相互排斥,只能有一个存在。
3.pd.Series.filter
pd.Series
应用 filter
时参数与 df.filter
一样,不过由于 Series
只有一个轴,不能将 axis = 1
,只能按索引查询数据。
df.one.filter(['rabbit'])
df.one.filter(like='e')
df.one.filter(regex='e$')
4.DataFrameGroupBy.filter
分组后进行筛选,可以自定义函数,常与匿名函数 lambda
结合使用。
类似于 SQL
中的 groupby + having
操作。
使用语法为:
DataFrameGroupBy.filter(func, dropna=True, *args, **kwargs)
func -- 用于每个分组
dropna -- 是否删除
实操:
# 构建测试集
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
'foo', 'bar'],
'B' : [1, 2, 3, 4, 5, 6],
'C' : [2.0, 5., 8., 1., 2., 9.]})
# 筛选分组后
df.groupby('A').filter(lambda x:x['B'].mean() > 3.)
# 长度
df.groupby('team').filter(lambda x: len(x) >= 3)
# 只要有一个满足
df.groupby(['A']).filter(lambda x: (x['B'] > 3).any())
# 全部满足
df.groupby('A').filter(lambda x: (x.mean() >= 4).all())
# 和满足
df.groupby('A').filter(lambda x: x.Q1.sum() >100)
二、pd.query函数
1.介绍
使用布尔表达式查询 DataFrame
的列,按照某列规则进行过滤。
类似于 SQL
中的 where
进行条件过滤。
使用语法为:
DataFrame.query(expr, inplace=False, **kwargs)
expr -- 查询字符串
inplace -- 是否修改原数据框
2.实操
import pandas as pd
import numpy as np
df = pd.DataFrame({'A':range(1,6),
'B':range(10,0,-2),
'C':2})
df
'''
A B C
0 1 10 2
1 2 8 2
2 3 6 2
3 4 4 2
4 5 2 2
'''
df.query('B == 2') # B列等于2
df.query('A < B') # A列小于B列
df[df.A < df.B] # 同上
# 多条件查询
df.query('A < B & A < C')
df.query('A < B | A == 4')
# 部分样例
df.query('A > B > C')
df.query('A + B > 100')
df.query('A == B')
df.query('A != 100')
df.query('A in [3,5]')
df.query('A not in [3,5]')
df.query('name.str.contains("r")') # 好像不支持
df.name.str.contains("r") # 测试没问题
df.query('B == `team name`') # 有空格 反引号
注意:查询条件必须为字符串。
参考链接:pandas filter 筛选标签
参考链接:pandas filter 筛选标签
参考链接:Pandas过滤-filter函数,query函数的使用
参考链接:Pandas - 查询函数query