目录
使用Anaconda创建jupyter笔记本
Anaconda可以在官网下载。
添加新工具包的方法:
在Environments中搜索,并添加即可。
利用python,合并表格的两种方法,merge&join
以2021美赛数据集为例。首先合并表格要注意的是设置表格的表头,即这一语句:
是将表格第一列设置为合并表格的索引,这样合并表格的时候就会合并两个表格第一列的元素相同的行。
id1.head()
完整代码为:
join合并:
import numpy as np
import pandas as pd
import matplotlib as plt
id1=pd.read_csv('/Users/wuwu/Desktop/2021_ICM_Problem_D_Data/id4.csv')
dba=pd.read_csv('/Users/wuwu/Desktop/2021_ICM_Problem_D_Data/dba2.csv')
id1.head()
df1=id1.set_index('influencer_name')
df2=dba
df2=dba.set_index('influencer_name')
w=df1.join(df2)
w.info()
merge合并:
import numpy as np
import pandas as pd
import matplotlib as plt
id4=pd.read_csv('/Users/wuwu/Desktop/2021_ICM_Problem_D_Data/id4.csv')
dba=pd.read_csv('/Users/wuwu/Desktop/2021_ICM_Problem_D_Data/dba2.csv')
id4.head()
df1=id4.set_index('influencer_name')
df2=dba
df2=dba.set_index('influencer_name')
df3 = pd.merge(df1,df2,how='inner',on='influencer_name')
print(df3)
df3.to_csv('/Users/wuwu/Desktop/2021_ICM_Problem_D_Data/alldataexceptyear.csv')
两种方法合并的结果不同,大家可以自己尝试一下,merge合并也有其他的用法,how=‘inner’ 定义的是表格内部的合并,合并的是两个表格相似的地方。
pd.merge(df1,df2,how='inner',on='influencer_name')