***机器学习于数据分析学习笔记之常用函数操作***
——.Merge函数(用于整合数据)
数据处理中可能经常要对提取的特征进行整合,例如后续实战中会拿到一份歌曲数据集,但是不同的文件存储的特征不同,有的文件包括歌曲名、播放量;有的包括歌曲名、歌手名。现在我们要做的就是把所有特征汇总在一起。
Merge函数就是可以指定索引是谁,按照索引对数据的特征进行整合。
#merge操作,按索引对数据进行整合
left = pd.DataFrame({‘key’:[‘k0’,‘k1’,‘k2’,‘k3’],
‘A’:[‘A0’,‘A1’,‘A2’,‘A3’],
‘B’:[‘B0’,‘B1’,‘B2’,‘B3’]})
right = pd.DataFrame({‘key’:[‘k0’,‘k1’,‘k2’,‘k3’],
‘C’:[‘C0’,‘C1’,‘C2’,‘C3’],
‘D’:[‘D0’,‘D1’,‘D2’,‘D3’]})
merged = pd.merge(left,right,on = ‘key’)//"on="就是在指定索引
例如这里就是将数据按照共同索引key来进行整合。
整合之后打印merged为
key A B C D
0 k0 A0 B0 C0 D0
1 k1 A1 B1 C1 D1
2 k2 A2 B2 C2 D2
3 k3 A3 B3 C3 D3
但是有时候并不是所有的数据集恰好就是共同的索引都存在。比如歌曲集,可能俩个数据集,一个包含曲名,播放量,另一个包含曲名,歌手名。我们想要整和俩个数据集,并以歌曲名作为索引,但是有可能,第一个数据集不含有,《小星星》这首歌,但是第二个数据集含有,此时如果强行整合会发生什么了。
#索引并不完全一样的时候的处理
left = pd.DataFrame({‘key1’:[‘k0’,‘k1’,‘k2’,‘k3’],
‘key2’:[‘k0’,‘k1’,‘k2’,‘k3’],
‘A’:[‘A0’,‘A1’,‘A2’,‘A3’],
‘B’:[‘B0’,‘B1’,‘B2’,‘B3’]})
right = pd.DataFrame({‘key1’:[‘k0’,‘k1’,‘k2’,‘k3’],
‘key2’:[‘k0’,‘k1’,‘k2’,‘k4’],
‘C’:[‘C0’,‘C1’,‘C2’,‘C3’],
‘D’:[‘D0’,‘D1’,‘D2’,‘D3’]})
细心的读者会发现最后一行,left和right的特征并不一样
我们看看结果:
key1 key2 A B C D
0 k0 k0 A0 B0 C0 D0
1 k1 k1 A1 B1 C1 D1
2 k2 k2 A2 B2 C2 D2
发现结果直接舍弃了不一样的数据,只打印了前三行。
但是有时我们想要保留不一样的数据这时候该怎么办呢。
可以在merge函数里面指定一个how参数,它会使merge函数保留那部分数据
merged = pd.merge(left,right,on = [‘key1’,‘key2’],how = ‘outer’)
打印输出看看
key1 key2 A B C D
0 k0 k0 A0 B0 C0 D0
1 k1 k1 A1 B1 C1 D1
2 k2 k2 A2 B2 C2 D2
3 k3 k3 A3 B3 NaN NaN
4 k3 k4 NaN NaN C3 D3
这要我们就保留了不相同部分的数据,而没有指定为索引的特征的那个数据集,就会自动在那一行补上NaN。
但是如果还嫌不够,可以再设置一个索引,使详细是哪一个数据集没有可以打印出来。
merged = pd.merge(left,right,on = [‘key1’,‘key2’],how = ‘outer’,indicator=‘True’)
打印看看
key1 key2 A B C D True
0 k0 k0 A0 B0 C0 D0 both
1 k1 k1 A1 B1 C1 D1 both
2 k2 k2 A2 B2 C2 D2 both
3 k3 k3 A3 B3 NaN NaN left_only
4 k3 k4 NaN NaN C3 D3 right_only
最左侧那一列就是显示的哪一列有没有这个特征。
当然,还可以指定为以哪一列数据为准:
merged = pd.merge(left,right,on = [‘key1’,‘key2’],how = ‘right’)
key1 key2 A B C D
0 k0 k0 A0 B0 C0 D0
1 k1 k1 A1 B1 C1 D1
2 k2 k2 A2 B2 C2 D2
3 k3 k4 NaN NaN C3 D3
以右列为准的话,发现A,B的第三列直接给抹盖了但是C,D没有。
批注:我是按照书上的例子给大家举例的,若作者看到有侵权行为,可以和我联系。
书籍为《跟着迪哥学python数据分析和机器学习实战》