python – 检测并排除Pandas数据帧中的异常值

我有一个包含少量列的pandas数据帧.

现在我知道某些行是基于某个列值的异常值.

例如列 – ‘Vol’的所有值都大约为12xx,一个值为4000(异常值).

现在我想排除那些有’Vol’列的行.
因此,基本上我需要在数据框上放置一个过滤器,以便我们选择所有行,其中某列的值在与平均值相差3个标准差的范围内.

实现这一目标的优雅方式是什么?

解决方法:

如果数据框中有多个列,并且想要删除至少有一列中具有异常值的所有行,则以下表达式将一次性执行此操作.

df = pd.DataFrame(np.random.randn(100, 3))

from scipy import stats
df[(np.abs(stats.zscore(df)) < 3).all(axis=1)]

描述:

>对于每一列,首先计算每个值的Z分数
列,相对于列平均值和标准偏差.
>然后是Z分数的绝对值,因为方向不是
只有当它低于阈值时才重要.
> all(axis = 1)确保对于每一行,所有列都满足
约束.
>最后,此条件的结果用于索引数据帧.

上一篇:abc227 题解


下一篇:[JavaScript 刷题] 链表II,翻转链表,搜索,按值删除