第四节:Python中用pandas, numpy等清洗数据

准备

import numpy as np
import pandas as pd
np.random.seed(12345)
import matplotlib.pyplot as plt

1、 处理缺失数据

缺失值在很多数据分析应用中出现
pandas的目标之一就是尽可能“无痛”地处理缺失值
pandas对象的所有描述性统计信息默认情况下是排除缺失值的
pandas使用NaN(Not a Number)来表示缺失值

from numpy import nan as NA   #重命名NA为空值

第四节:Python中用pandas, numpy等清洗数据

(1)过滤缺失值

第四节:Python中用pandas, numpy等清洗数据
第四节:Python中用pandas, numpy等清洗数据
第四节:Python中用pandas, numpy等清洗数据
第四节:Python中用pandas, numpy等清洗数据

(2)补全缺失值

有时可能不想滤除缺失数据(有可能会丢弃跟它有关的其他数据),而是希望通过其他方式填补那些“空洞”。
对于大多数情况而言,fillna方法是最主要的函数。
通过一个常数调用fillna就会将缺失值替换为那个常数值:

第四节:Python中用pandas, numpy等清洗数据
第四节:Python中用pandas, numpy等清洗数据
第四节:Python中用pandas, numpy等清洗数据
第四节:Python中用pandas, numpy等清洗数据
第四节:Python中用pandas, numpy等清洗数据第四节:Python中用pandas, numpy等清洗数据

第四节:Python中用pandas, numpy等清洗数据

2、数据转换

(1)移除重复值

第四节:Python中用pandas, numpy等清洗数据第四节:Python中用pandas, numpy等清洗数据

(2) 使用函数或映射进行数据转换

对于许多数据集,可能希望根据数组、Series或DataFrame列中的值来实现转换工作。

第四节:Python中用pandas, numpy等清洗数据
第四节:Python中用pandas, numpy等清洗数据第四节:Python中用pandas, numpy等清洗数据

第四节:Python中用pandas, numpy等清洗数据

(3)替代值

第四节:Python中用pandas, numpy等清洗数据第四节:Python中用pandas, numpy等清洗数据

第四节:Python中用pandas, numpy等清洗数据
第四节:Python中用pandas, numpy等清洗数据

上一篇:list集合根据某字段进行排序


下一篇:idea项目报错Comparison method violates its general contract