Pandas之六Merge

有时要分析的数据源存放在不同的地方被读取到不同的dataframe,但需要对其合并分析。比如某个业务按月份存放数据到不同的表或文件,但是需要合并分析各个月的变化趋势时就可能需要将不同的dataframe合并到后进行分析。Pandas提供了两种合并操作:

  • concat:直接拼接,将datafarme或series按行或列拼接在一起
  • join:类似于sql中的join,按照条件组合到一起

1. Concat

concat可以同时合并两个及两个以下的dataframe,可以按行进行合并,也可以按列进行合并。下面我们以下图中的数据来演示上述各项功能。

Pandas之六Merge

1.1 按行合并dataframe

将df4、df5和df6按行合并成一个dataframe,合并步骤:

  1. 取出所有dataframe的不同列名,作为结果dataframe的列名
  2. 直接拼接所有dataframe的所有行,按照原列名存放各列数据
  3. np.nan补充缺失值
pd.concat([df4,df5,df6])

Pandas之六Merge

1.2 按列合并dataframe

设置参数axis=1将df4和df5按列合并成一个dataframe,与按行合并的区别是会在原dataframe后追加所有行和所有列

pd.concat([df4,df5.loc[:,"B"]],axis=1)

Pandas之六Merge

2. Join

Join方式类似于SQL中的join,是日常操作中用得较多的方式,使用pd.merge方法实现,本文先介绍基础用法,后续精讲系列再进行深入讲解。首先构建两个需要合并的dataframe

Pandas之六Merge

  1. 使用pd.merge为两个dataframe关联key相同的数据,取其所有列。一般情况下,on设置为在所有dataframe数据都不重复的列名,以避免重复数据出现。

    pd.merge(left, right, on="key")

Pandas之六Merge

  1. 使用pd.merge左连接的方式关联合并,设置参数how="left",以left为主,取right中相同key的数据,不存在的数据默认以np.nan填充。

    pd.merge(left, right, on="key", how="left")

Pandas之六Merge

上一篇:微信小程序之组件的集合(二)


下一篇:【ESSD技术解读-01】 云原生时代,阿里云块存储 ESSD 快照服务如何被企业级数据保护所集成?