有时要分析的数据源存放在不同的地方被读取到不同的dataframe,但需要对其合并分析。比如某个业务按月份存放数据到不同的表或文件,但是需要合并分析各个月的变化趋势时就可能需要将不同的dataframe合并到后进行分析。Pandas提供了两种合并操作:
- concat:直接拼接,将datafarme或series按行或列拼接在一起
- join:类似于sql中的join,按照条件组合到一起
1. Concat
concat
可以同时合并两个及两个以下的dataframe,可以按行进行合并,也可以按列进行合并。下面我们以下图中的数据来演示上述各项功能。
1.1 按行合并dataframe
将df4、df5和df6按行合并成一个dataframe,合并步骤:
- 取出所有dataframe的不同列名,作为结果dataframe的列名
- 直接拼接所有dataframe的所有行,按照原列名存放各列数据
- 以
np.nan
补充缺失值
pd.concat([df4,df5,df6])
1.2 按列合并dataframe
设置参数axis=1
将df4和df5按列合并成一个dataframe,与按行合并的区别是会在原dataframe后追加所有行和所有列。
pd.concat([df4,df5.loc[:,"B"]],axis=1)
2. Join
Join方式类似于SQL中的join,是日常操作中用得较多的方式,使用pd.merge
方法实现,本文先介绍基础用法,后续精讲系列再进行深入讲解。首先构建两个需要合并的dataframe
-
使用
pd.merge
为两个dataframe关联key相同的数据,取其所有列。一般情况下,on
设置为在所有dataframe数据都不重复的列名,以避免重复数据出现。pd.merge(left, right, on="key")
-
使用
pd.merge
以左连接的方式关联合并,设置参数how="left"
,以left为主,取right中相同key
的数据,不存在的数据默认以np.nan
填充。pd.merge(left, right, on="key", how="left")