近期做了很多关于数据处理的问题,发现灵活运用pandas包对于数据分析来说可以轻松好多
导包
import numpy as np
import pandas as pd
from pandas import DataFrame,Series
#读取excel表格,这是一个dataframe数据
table = pd.read_excel(r'***.xlsx')
#转换元素的数据类型
table['***'] = table['***'].astype('str')
#数据表左连接,当有多表时要根据某一相同列合并表,可以使用连接,找出某一列对应元素相同的数据
table1 = pd.merge(shuchu,new1,how='left',left_on='项目编号',right_on='项目编号1').drop('项目编号1',axis=1)
#同时处理数据表两列数据,func为对这两列数据的处理,可以自定义(相加,相减,比较大小等)
table[new] = table.apply(lambda x : func(x[col1], x[col2]), axis=1)
#删除重复项
table.drop_duplicates(inplace=True)
#根据两列名称生成新的列名称
df1['故障频次为0.2的人员定额'] = df1['最低'].map(str)+'-'+df1['最高'].map(str)
#根据某一列分组做聚合
df5 = df4.groupby(['项目编号'])[['机组数量']].sum()