学习目标
-
知道df添加新列的操作
-
知道insert函数插入列数据
-
知道drop函数删除df的行或列数据
-
知道drop_duplicates函数对df或series进行数据去重
-
知道unique函数对series进行数据去重
-
知道apply函数的使用方法
1 DataFrame添加列
注意:本文用到的数据集在文章顶部
1.1 直接赋值添加列数据
通过
df[列名]=新值
或df[列名]=series对象/list对象
添加新的一列, 新列添加到df的最后
-
添加列名为
城市
的一列, 值都为北京
import pandas as pd # 加载数据集 df = pd.read_csv('../data/LJdata.csv') # 获取前5条数据并复制一份 temp_df = df.head().copy() # 添加一列数据都是固定值 temp_df['省份'] = '北京' print(temp_df) # 输出结果如下 区域 地址 户型 面积 价格 朝向 更新时间 看房人数 城市 0 燕莎租房 新源街 2室1厅 50 5800 南 2017.07.21 26 北京 1 望京租房 澳洲康都 2室1厅 79 7800 东 2017.07.23 33 北京 2 广安门租房 远见名苑 2室1厅 86 8000 东 2017.07.20 34 北京 3 天通苑租房 天通苑北一区 2室1厅 103 5300 东南 2017.07.25 30 北京 4 团结湖租房 团结湖北口 2室1厅 63 6400 南 2017.07.26 30 北京
-
添加列名为
区县
的一列, 值分别是朝阳区、朝阳区、西城区、昌平区、朝阳区
# 列表的数据数量必须和df的行数相等 temp_df['区县'] = ['朝阳区', '朝阳区', '西城区', '昌平区', '朝阳区'] print(temp_df) # 输出结果如下 区域 地址 户型 面积 价格 朝向 更新时间 看房人数 省份 区县 0 燕莎租房 新源街 2室1厅 50 5800 南 2017.07.21 26 北京 朝阳区 1 望京租房 澳洲康都 2室1厅 79 7800 东 2017.07.23 33 北京 朝阳区 2 广安门租房 远见名苑 2室1厅 86 8000 东 2017.07.20 34 北京 西城区 3 天通苑租房 天通苑北一区 2室1厅 103 5300 东南 2017.07.25 30 北京 昌平区 4 团结湖租房 团结湖北口 2室1厅 63 6400 南 2017.07.26 30 北京 朝阳区
-
添加列名为
新价格
的一列, 值比原价格列的值多1000元# 新增数据为series对象 # print(temp_df['价格'] + 1000) temp_df['新价格'] = temp_df['价格'] + 1000 print(temp_df) # 输出结果如下 区域 地址 户型 面积 价格 ... 更新时间 看房人数 省份 区县 新价格 0 燕莎租房 新源街 2室1厅 50 5800 ... 2017.07.21 26 北京 朝阳区 6800 1 望京租房 澳洲康都 2室1厅 79 7800 ... 2017.07.23 33 北京 朝阳区 8800 2 广安门租房 远见名苑 2室1厅 86 8000 ... 2017.07.20 34 北京 西城区 9000 3 天通苑租房 天通苑北一区 2室1厅 103 5300 ... 2017.07.25 30 北京 昌平区 6300 4 团结湖租房 团结湖北口 2室1厅 63 6400 ... 2017.07.26 30 北京 朝阳区 7400
1.2 insert函数添加列数据
通过
df.insert(loc=,column=,value=)
方法在指定位置添加列loc: 指定列位置下标数字
column: 添加列的列名
value: 添加列的所有值, series对象、列表对象、常数等
-
在区域列后添加列名为
城市
的一列, 值都为北京
# 获取前5条数据 new_df = df.head().copy() print(new_df) new_df.insert(loc=1, column='城市', value='北京') print(new_df) # 输出结果如下 区域 地址 户型 面积 价格 朝向 更新时间 看房人数 0 燕莎租房 新源街 2室1厅 50 5800 南 2017.07.21 26 1 望京租房 澳洲康都 2室1厅 79 7800 东 2017.07.23 33 2 广安门租房 远见名苑 2室1厅 86 8000 东 2017.07.20 34 3 天通苑租房 天通苑北一区 2室1厅 103 5300 东南 2017.07.25 30 4 团结湖租房 团结湖北口 2室1厅 63 6400 南 2017.07.26 30 区域 城市 地址 户型 面积 价格 朝向 更新时间 看房人数 0 燕莎租房 北京 新源街 2室1厅 50 5800 南 2017.07.21 26 1 望京租房 北京 澳洲康都 2室1厅 79 7800 东 2017.07.23 33 2 广安门租房 北京 远见名苑 2室1厅 86 8000 东 2017.07.20 34 3 天通苑租房 北京 天通苑北一区 2室1厅 103 5300 东南 2017.07.25 30 4 团结湖租房 北京 团结湖北口 2室1厅 63 6400 南 2017.07.26 30
-
在城市列后添加列名为
区县
的一列, 值分别是朝阳区、朝阳区、西城区、昌平区、朝阳区
new_df.insert(loc=2, column='区县', value=['朝阳区', '朝阳区', '西城区', '昌平区', '朝阳区']) print(new_df) # 输出结果如下 区域 城市 区县 地址 户型 面积 价格 朝向 更新时间 看房人数 0 燕莎租房 北京 朝阳区 新源街 2室1厅 50 5800 南 2017.07.21 26 1 望京租房 北京 朝阳区 澳洲康都 2室1厅 79 7800 东 2017.07.23 33 2 广安门租房 北京 西城区 远见名苑 2室1厅 86 8000 东 2017.07.20 34 3 天通苑租房 北京 昌平区 天通苑北一区 2室1厅 103 5300 东南 2017.07.25 30 4 团结湖租房 北京 朝阳区 团结湖北口 2室1厅 63 6400 南 2017.07.26 30
-
在价格列后添加列名为
新价格
的一列, 值比原价格列的值多1000元pd.set_option('display.max_columns', None) # 展示所有列 pd.set_option('display.width', None) # 不换行显示 new_df.insert(loc=7, column='新价格', value=new_df['价格'] + 1000) print(new_df) # 输出结果如下 区域 城市 区县 地址 户型 面积 价格 新价格 朝向 更新时间 看房人数 0 燕莎租房 北京 朝阳区 新源街 2室1厅 50 5800 6800 南 2017.07.21 26 1 望京租房 北京 朝阳区 澳洲康都 2室1厅 79 7800 8800 东 2017.07.23 33 2 广安门租房 北京 西城区 远见名苑 2室1厅 86 8000 9000 东 2017.07.20 34 3 天通苑租房 北京 昌平区 天通苑北一区 2室1厅 103 5300 6300 东南 2017.07.25 30 4 团结湖租房 北京 朝阳区 团结湖北口 2室1厅 63 6400 7400 南 2017.07.26 30
2 DataFrame删除行列
通过
df.drop(labels=, axis=, inplace=)
方法删除行列数据labels: 行索引值或列名列表
axis: 删除行->
0或index
, 删除列->1或columns
, 默认0inplace:
True
或False
, 是否在原数据上删除, 默认False
# 删除一行数据, 原df上并没有删除
print(temp_df.drop(labels=[0]))
# 删除多行数据, 原df上删除
temp_df.drop(labels=[0, 2, 4], axis='index', inplace=True)
print(temp_df)
# 删除一列数据, 原df上并没有删除
print(temp_df.drop(labels=['新价格'], axis=1))
# 删除多列数据, 原df上删除
temp_df.drop(labels=['新价格', '区县', '省份'], axis='columns', inplace=True)
print(temp_df)
# 输出结果如下
区域 地址 户型 面积 价格 ... 更新时间 看房人数 省份 区县 新价格
1 望京租房 澳洲康都 2室1厅 79 7800 ... 2017.07.23 33 北京 朝阳区 8800
2 广安门租房 远见名苑 2室1厅 86 8000 ... 2017.07.20 34 北京 西城区 9000
3 天通苑租房 天通苑北一区 2室1厅 103 5300 ... 2017.07.25 30 北京 昌平区 6300
4 团结湖租房 团结湖北口 2室1厅 63 6400 ... 2017.07.26 30 北京 朝阳区 7400
[4 rows x 11 columns]
区域 地址 户型 面积 价格 ... 更新时间 看房人数 省份 区县 新价格
1 望京租房 澳洲康都 2室1厅 79 7800 ... 2017.07.23 33 北京 朝阳区 8800
3 天通苑租房 天通苑北一区 2室1厅 103 5300 ... 2017.07.25 30 北京 昌平区 6300
[2 rows x 11 columns]
区域 地址 户型 面积 价格 朝向 更新时间 看房人数 省份 区县
1 望京租房 澳洲康都 2室1厅 79 7800 东 2017.07.23 33 北京 朝阳区
3 天通苑租房 天通苑北一区 2室1厅 103 5300 东南 2017.07.25 30 北京 昌平区
区域 地址 户型 面积 价格 朝向 更新时间 看房人数
1 望京租房 澳洲康都 2室1厅 79 7800 东 2017.07.23 33
3 天通苑租房 天通苑北一区 2室1厅 103 5300 东南 2017.07.25 30
3 Series或DataFrame数据去重
通过
<s/df>.drop_duplicates(subset=,keep=,inplace=)
方法对数据去重subset: df的参数, 传入列名列表, 对指定列进行去重, 不写此参数默认对所有列进行去重
keep: 保留哪条重复数据,
first
->保留第一条,last
->保留最后一条,False
->都不保留, 默认first
inplace:
True
或False
, 是否在原数据上去重, 默认False
-
DataFrame数据去重 duplicates
temp_df = df.head().copy() # 对df所有列去重, 当前df没有重复的行数据 print(temp_df.drop_duplicates()) # 根据指定列对df去重, 默认保留第一条数据 # 第1行和第5行、第2行和第3行重复 print(temp_df.drop_duplicates(subset=['户型', '朝向'])) # 保留最后一条数据 # print(temp_df.drop_duplicates(subset=['户型', '朝向'], keep='last')) # 重复数据都不保留 # print(temp_df.drop_duplicates(subset=['户型', '朝向'], keep=False)) # 输出结果如下 区域 地址 户型 面积 价格 朝向 更新时间 看房人数 0 燕莎租房 新源街 2室1厅 50 5800 南 2017.07.21 26 1 望京租房 澳洲康都 2室1厅 79 7800 东 2017.07.23 33 2 广安门租房 远见名苑 2室1厅 86 8000 东 2017.07.20 34 3 天通苑租房 天通苑北一区 2室1厅 103 5300 东南 2017.07.25 30 4 团结湖租房 团结湖北口 2室1厅 63 6400 南 2017.07.26 30 区域 地址 户型 面积 价格 朝向 更新时间 看房人数 0 燕莎租房 新源街 2室1厅 50 5800 南 2017.07.21 26 1 望京租房 澳洲康都 2室1厅 79 7800 东 2017.07.23 33 3 天通苑租房 天通苑北一区 2室1厅 103 5300 东南 2017.07.25 30
-
Series数据去重
print('-------------去重之后返回Series对象--------------------') # 默认保留第一条数据 print(temp_df['朝向'].drop_duplicates()) # 保留最后一条数据 print(temp_df['朝向'].drop_duplicates(keep='last')) # 重复数据都不保留 print(temp_df['朝向'].drop_duplicates(keep=False)) print('-------------去重之后返回数组--------------------') # series对象还可以使用unique函数去重, 返回ndarray数组 print(temp_df['朝向'].unique()) # nunique函数实现去重计数操作, 类似 count(distinct) print(temp_df['朝向'].nunique()) # 输出结果如下 0 南 1 东 3 东南 Name: 朝向, dtype: object 2 东 3 东南 4 南 Name: 朝向, dtype: object 3 东南 Name: 朝向, dtype: object ['南' '东' '东南'] 3
4 Series或DataFrame数据修改
4.1 直接修改数据
通过
df[列名]=新值
或s[行索引]=新值
修改数据
# 获取前5条数据并复制一份
temp_df = df.head().copy()
# 获取价格列, 得到series对象, 复制一份数据
s1 = temp_df['价格'].copy()
print(s1)
# series修改数据
s1[0] = 7000
print(s1)
# dataframe修改数据, 列表数据数量要和行数相等
temp_df['价格'] = [6800, 8800, 9000, 6300, 6400]
print(temp_df)
# 输出结果如下
0 5800
1 7800
2 8000
3 5300
4 6400
Name: 价格, dtype: int64
0 7000
1 7800
2 8000
3 5300
4 6400
Name: 价格, dtype: int64
区域 地址 户型 面积 价格 朝向 更新时间 看房人数
0 燕莎租房 新源街 2室1厅 50 6800 南 2017.07.21 26
1 望京租房 澳洲康都 2室1厅 79 8800 东 2017.07.23 33
2 广安门租房 远见名苑 2室1厅 86 9000 东 2017.07.20 34
3 天通苑租房 天通苑北一区 2室1厅 103 6300 东南 2017.07.25 30
4 团结湖租房 团结湖北口 2室1厅 63 6400 南 2017.07.26 30
4.2 replace函数替换数据
通过
<s/df>.replace(to_replace=, value=, inplace=)
方法替换数据to_replace: 需要替换的数据
value: 替换后的数据
inplace:
True
或False
, 是否在原数据上替换, 默认False
# 获取前5条数据并复制一份
temp_df = df.head().copy()
# 替换series的数据
print(temp_df['价格'].replace(to_replace=5300, value=6000))
temp_df['朝向'].replace('东南', '西', inplace=True)
print(temp_df)
# 替换dataframe的数据
print(temp_df.replace(to_replace='2室1厅', value='3室2厅'))
# 输出结果如下
0 5800
1 7800
2 8000
3 6000
4 6400
Name: 价格, dtype: int64
区域 地址 户型 面积 价格 朝向 更新时间 看房人数
0 燕莎租房 新源街 2室1厅 50 5800 南 2017.07.21 26
1 望京租房 澳洲康都 2室1厅 79 7800 东 2017.07.23 33
2 广安门租房 远见名苑 2室1厅 86 8000 东 2017.07.20 34
3 天通苑租房 天通苑北一区 2室1厅 103 5300 西 2017.07.25 30
4 团结湖租房 团结湖北口 2室1厅 63 6400 南 2017.07.26 30
区域 地址 户型 面积 价格 朝向 更新时间 看房人数
0 燕莎租房 新源街 3室2厅 50 5800 南 2017.07.21 26
1 望京租房 澳洲康都 3室2厅 79 7800 东 2017.07.23 33
2 广安门租房 远见名苑 3室2厅 86 8000 东 2017.07.20 34
3 天通苑租房 天通苑北一区 3室2厅 103 5300 西 2017.07.25 30
4 团结湖租房 团结湖北口 3室2厅 63 6400 南 2017.07.26 30
4.3执行自定义函数修改数据
有时需要我们对df或s对象中的数据做更加精细化的修改动作,并将修改操作封装成为一个自定义的函数;这时我们就可以利用
<s/df>.apply(函数名)
来调用我们自定义的函数s或df对象可以借助apply函数执行自定义函数, 内置函数无法处理需求时就需要使用自定义函数来处理
4.3.1s.apply()函数遍历每一个值同时执行自定义函数
-
Series对象使用apply调用自定义的函数,返回新的Series对象
# 加载数据集 df = pd.read_csv('../data/LJdata.csv') # 获取前5条数据并复制一份 temp_df = df.head().copy() # 自定义函数, 最少接收一个参数 def func(x): # x此时是s对象中一个数据值:燕莎租房、望京租房 print('x的值是->', x) # 本自定义函数返回的也是一个数据 if x == '天通苑租房': return '昌平区' return x temp_df['区域'] = temp_df['区域'].apply(func) print(temp_df) # 输出结果如下 x的值是-> 燕莎租房 x的值是-> 望京租房 x的值是-> 广安门租房 x的值是-> 天通苑租房 x的值是-> 团结湖租房 区域 地址 户型 面积 价格 朝向 更新时间 看房人数 0 燕莎租房 新源街 2室1厅 50 5800 南 2017.07.21 26 1 望京租房 澳洲康都 2室1厅 79 7800 东 2017.07.23 33 2 广安门租房 远见名苑 2室1厅 86 8000 东 2017.07.20 34 3 昌平区 天通苑北一区 2室1厅 103 5300 东南 2017.07.25 30 4 团结湖租房 团结湖北口 2室1厅 63 6400 南 2017.07.26 30
-
Series对象使用apply调用自定义的函数,并向自定义函数中传入其他参数
# 获取前5条数据 temp_df = df.head().copy() # 自定义函数, 最少接收一个参数 def func(x, arg1, arg2): # x此时是s对象中一个数据 print('x的值是->', x) # 本自定义函数返回的也是一个数据 if x == '天通苑租房': return arg1 return arg2 # args: 传入其他参数值, 元组类型 temp_df['区域'] = temp_df['区域'].apply(func, args=('昌平区', '其他区')) # apply中其他参数名和自定义函数中其他形参名相同 # temp_df['区域'] = temp_df['区域'].apply(func1, arg1='昌平区', arg2='其他区') print(temp_df) # 输出结果如下 x的值是-> 燕莎租房 x的值是-> 望京租房 x的值是-> 广安门租房 x的值是-> 天通苑租房 x的值是-> 团结湖租房 区域 地址 户型 面积 价格 朝向 更新时间 看房人数 0 其他区 新源街 2室1厅 50 5800 南 2017.07.21 26 1 其他区 澳洲康都 2室1厅 79 7800 东 2017.07.23 33 2 其他区 远见名苑 2室1厅 86 8000 东 2017.07.20 34 3 昌平区 天通苑北一区 2室1厅 103 5300 东南 2017.07.25 30 4 其他区 团结湖北口 2室1厅 63 6400 南 2017.07.26 30
4.3.2 df.apply()函数遍历每一行/列同时执行自定义函数
# 获取前5条数据
temp_df = df.head().copy()
print(temp_df)
def func1(s, arg1):
# 此时s参数就是df中的一列数据, s对象
# print('s的值是->', s)
# print('s的类型是->', type(s))
# 本自定义函数也必须返回一列数据, s对象
# print(s.__dict__)
if s._name == '价格':
return s + arg1
else:
return s
# 默认遍历df每列, axis=0
print(temp_df.apply(func1, args=(1000,), axis=0))
def func2(s, arg1):
# 此时s参数就是df中的一行数据, s对象
# print('s的值是->', s)
# print('s的类型是->', type(s))
# 本自定义函数也必须返回一列数据, s对象
# print(s.__dict__)
if s['区域'] == '天通苑租房':
# 修改价格对应的值
s['价格'] = s['价格'] + arg1
return s
else:
return s
# 遍历df每行, axis=1
print(temp_df.apply(func2, arg1=1000, axis=1))
# 输出结果如下
区域 地址 户型 面积 价格 朝向 更新时间 看房人数
0 燕莎租房 新源街 2室1厅 50 5800 南 2017.07.21 26
1 望京租房 澳洲康都 2室1厅 79 7800 东 2017.07.23 33
2 广安门租房 远见名苑 2室1厅 86 8000 东 2017.07.20 34
3 天通苑租房 天通苑北一区 2室1厅 103 5300 东南 2017.07.25 30
4 团结湖租房 团结湖北口 2室1厅 63 6400 南 2017.07.26 30
区域 地址 户型 面积 价格 朝向 更新时间 看房人数
0 燕莎租房 新源街 2室1厅 50 6800 南 2017.07.21 26
1 望京租房 澳洲康都 2室1厅 79 8800 东 2017.07.23 33
2 广安门租房 远见名苑 2室1厅 86 9000 东 2017.07.20 34
3 天通苑租房 天通苑北一区 2室1厅 103 6300 东南 2017.07.25 30
4 团结湖租房 团结湖北口 2室1厅 63 7400 南 2017.07.26 30
区域 地址 户型 面积 价格 朝向 更新时间 看房人数
0 燕莎租房 新源街 2室1厅 50 5800 南 2017.07.21 26
1 望京租房 澳洲康都 2室1厅 79 7800 东 2017.07.23 33
2 广安门租房 远见名苑 2室1厅 86 8000 东 2017.07.20 34
3 天通苑租房 天通苑北一区 2室1厅 103 6300 东南 2017.07.25 30
4 团结湖租房 团结湖北口 2室1厅 63 6400 南 2017.07.26 30
4.3.3 df.applymap()函数遍历每一个值同时执行自定义函数
# 获取前5条数据
temp_df = df.head().copy()
print(temp_df)
# 自定义函数只能接收一个参数
def func(x):
# 此时x参数就是df中的每个数据
# print('x的值是->', x)
# 本自定义函数也必须返回一个数据
if x == '2室1厅':
return '3室2厅'
else:
return x
print(temp_df.applymap(func))
# 输出结果如下
区域 地址 户型 面积 价格 朝向 更新时间 看房人数
0 燕莎租房 新源街 2室1厅 50 5800 南 2017.07.21 26
1 望京租房 澳洲康都 2室1厅 79 7800 东 2017.07.23 33
2 广安门租房 远见名苑 2室1厅 86 8000 东 2017.07.20 34
3 天通苑租房 天通苑北一区 2室1厅 103 5300 东南 2017.07.25 30
4 团结湖租房 团结湖北口 2室1厅 63 6400 南 2017.07.26 30
区域 地址 户型 面积 价格 朝向 更新时间 看房人数
0 燕莎租房 新源街 3室2厅 50 5800 南 2017.07.21 26
1 望京租房 澳洲康都 3室2厅 79 7800 东 2017.07.23 33
2 广安门租房 远见名苑 3室2厅 86 8000 东 2017.07.20 34
3 天通苑租房 天通苑北一区 3室2厅 103 5300 东南 2017.07.25 30
4 团结湖租房 团结湖北口 3室2厅 63 6400 南 2017.07.26 30
总结
请对下列API 有印象、能找到、能理解、能看懂
-
df['列名'] = 标量或向量
修改或添加列 -
df.insert(列下标数字, 列名, 该列所有值)
指定位置添加列 -
<df/s>.drop([索引值1, 索引值2, ...])
根据索引删除行数据 -
df.drop([列名1, 列名2, ...], axis=1)
根据列名删除列数据 -
<df/s>.drop_duplicates()
df或s对象去除重复的行数据 -
s.unique()
s对象去除重复的数据 -
<df/s>.replace('原数据', '新数据', inplace=True)
替换数据-
df或series对象替换数据,返回的还是原来相同类型的对象,不会对原来的df造成修改
-
如果加上inplace=True参数,则会修改原始df
-
-
apply
函数-
s.apply(自定义函数名, arg1=xx, ...)
对s对象中的每一个值,都执行自定义函数,且该自定义函数除了固定接收每一个值作为第一参数以外,还可以接收其他自定义参数 -
df.apply(自定义函数名, arg1=xx, ...)
对df对象中的每一列,都执行自定义函数,且该自定义函数除了固定接收列对象作为第一参数以外,还可以接收其他自定义参数 -
df.apply(自定义函数名, arg1=xx, ..., axis=1)
对df对象中的每一行,都执行自定义函数,且该自定义函数除了固定接收行对象作为第一参数以外,还可以接收其他自定义参数
-
-
applymap
函数-
df.applymap(自定义函数名)
对df对象中的每个值, 都执行自定义函数, 且该自定义函数只能接收每个值作为参数, 不能接收其他自定义参数
-