准备
import numpy as np
import pandas as pd
np.random.seed(12345)
import matplotlib.pyplot as plt
1、 处理缺失数据
缺失值在很多数据分析应用中出现
pandas的目标之一就是尽可能“无痛”地处理缺失值
pandas对象的所有描述性统计信息默认情况下是排除缺失值的
pandas使用NaN(Not a Number)来表示缺失值
from numpy import nan as NA #重命名NA为空值
(1)过滤缺失值
(2)补全缺失值
有时可能不想滤除缺失数据(有可能会丢弃跟它有关的其他数据),而是希望通过其他方式填补那些“空洞”。
对于大多数情况而言,fillna方法是最主要的函数。
通过一个常数调用fillna就会将缺失值替换为那个常数值:
2、数据转换
(1)移除重复值
(2) 使用函数或映射进行数据转换
对于许多数据集,可能希望根据数组、Series或DataFrame列中的值来实现转换工作。