数据清洗函数
函数 |
含义 |
duplicated() |
判断序列元素是否重复 |
drop_duplicates() |
删除重复值 |
hasnans() |
判断序列是否存在缺失(返回TRUE或FALSE) |
isnull() |
判断序列元素是否为缺失(返回与序列长度一样的bool值) |
notnull() |
判断序列元素是否不为缺失(返回与序列长度一样的bool值) |
dropna() |
删除缺失值 |
fillna() |
缺失值填充 |
ffill() |
前向后填充缺失值(使用缺失值的前一个元素填充) |
bfill() |
后向填充缺失值(使用缺失值的后一个元素填充) |
dtypes() |
检查数据类型 |
astype() |
类型强制转换 |
pd.to_datetime |
转日期时间型 |
factorize() |
因子化转换 |
sample() |
抽样 |
where() |
基于条件判断的值替换 |
replace() |
按值替换(不可使用正则) |
str.replace() |
按值替换(可使用正则) |
str.split.str() |
字符分隔 |