工作,python中对应excel操作

1,


#python中Excel操作
import numpy as np
import pandas as pd
###################################1,写入数据
df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
                   "date":pd.date_range('20130102', periods=6),
                   "city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
                    "age":[23,44,54,32,34,32],
                    "category":['100-A','100-B','110-A','110-C','210-A','130-F'],
                    "price":[1200,np.nan,2133,5433,np.nan,4432]},
columns =['id','date','city','category','age','price'])

###################################2,数据表检查
#数据维度
df.shape
#数据表信息
df.info()
#数据格式
df.dtypes
df['age'].dtype
#查看空值
df.isnull()
df['price'].isnull()
#查看唯一值
df['city'].unique()
#查看数据表中的值
df.values
#查看列名称
df.columns
#查看前10行,后10行
df.head(10)
df.tail()

#################################3,数据表清洗
#删除数据表中含有空值的行
df.dropna(how='any')
#使用数字0填充数据表中空值
df.fillna(value=0)
#使用price均值对NA进行填充
df['price']=df['price'].fillna(df['price'].mean())
#清理空格
#清除city字段中的字符空格
df['city']=df['city'].map(str.strip),
#city列大小写转换
df['city']=df['city'].str.lower()
#更改数据格式
df['price'].astype('int')
#更改列名称
df.rename(columns={'category': 'category-size'})
#删除先出现的重复值
df['city'].drop_duplicates(keep='last')
#数据替换
df['city'].replace('sh', 'shanghai')

###################################4,数据预处理
#建立df1数据表
df1=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006,1007,1008],
                      "gender":['male','female','male','female','male','female','male','female'],
                      "pay":['Y','N','Y','Y','N','Y','N','Y',],
                      "m-point":[10,12,20,40,40,40,30,20]})
#数据表匹配合并
df_inner=pd.merge(df,df1,how='inner')
#设置索引列
df_inner.set_index('id')
#按特定列的值排序
df_inner.sort_values(by=['age'])
#按索引列排序
df_inner.sort_index()
#如果price列的值>3000,group列显示high,否则显示low
df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low')
#对复合多个条件的数据进行分组标记
df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price']>= 4000), 'sign']=1

#对category字段的值依次进行分列,并创建数据表,索引值为df_inner的索引列,列名称为category和size/
???????????????????????????
[x.split('-') for x in df_inner['category']]
split=pd.DataFrame((x.split('-') for x in df_inner['category']),index=df_inner.index,columns=['category','size'])

#将完成分列后的数据表与原df_inner数据表进行匹配
df_inner=pd.merge(df_inner,split,right_index=True, left_index=True)


###################################5,#数据提取
#按索引提取单行的数值
df_inner.loc[3]
#按索引提取区域行数值
df_inner.loc[0:3]
#重设索引
df_inner.reset_index()
#设置日期为索引
df_inner=df_inner.set_index('date')
#提取4日之前的所有数据
df_inner[:'2013-01-04']

#使用iloc按位置区域提取数据
df_inner.iloc[:3,:2]

#使用iloc按位置单独提取数据
df_inner.iloc[[0,2,5],[4,5]]

#使用ix按索引标签和位置混合提取数据
df_inner.ix[:'2013-01-03',:4]

#判断city列的值是否为beijing
df_inner['city'].isin(['beijing'])
#先判断city列里是否包含beijing和shanghai,然后将复合条件的数据提取出来。
df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])]

###################################5,数据筛选
#使用“与”条件进行筛选
df_inner.loc[ (df_inner['age'] > 25) & (df_inner['city'] == 'beijing'), ['id','city','age','gender']]

#使用“非”条件进行筛选
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','gender']].sort_values(['id'])

#对筛选后的数据按city列进行计数
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','gender']].sort_values(['id']).city.count()

#使用query函数进行筛选
df_inner.query('city == ["beijing", "shanghai"]')

#对筛选后的结果按price进行求和
df_inner.query('city == ["beijing", "shanghai"]').price.sum()





###################################6,数据汇总
#对所有列进行计数汇总
df_inner.groupby('city').count()
#对特定的ID列进行计数汇总
df_inner.groupby('city')['id'].count()
#对两个字段进行汇总计数
df_inner.groupby(['city','size'])['id'].count()
#对city字段进行汇总并计算price的合计和均值。
df_inner.groupby('city')['price'].agg([len,np.sum, np.mean])

#数据透视
#设定city为行字段,size为列字段,price为值字段。
#分别计算price的数量和金额并且按行与列进行汇总。
pd.pivot_table(df_inner,index=["city"],values=["price"],columns=["size"],aggfunc=[len,np.sum],fill_value=0,margins=True)

###################################7,数据统计
#简单的数据采样
df_inner.sample(n=3)
#手动设置采样权重
weights = [0, 0, 0, 0, 0.5, 0.5]
df_inner.sample(n=2, weights=weights)
#采样后不放回
df_inner.sample(n=6, replace=False)
#采样后放回
df_inner.sample(n=6, replace=True)
#描述统计
#数据表描述性统计
df_inner.describe().round(2).T
df_inner.describe().round(2)

#相关性分析
df_inner['price'].corr(df_inner['m-point'])

#数据表相关性分析
df_inner.corr()
###################################8,数据输出
#输出到Excel格式
df_inner.to_Excel('Excel_to_Python.xlsx', sheet_name='bluewhale_cc')

#输出到CSV格式
df_inner.to_csv('Excel_to_Python.csv')



上一篇:数据分析实战100例(基于SQL&Pandas)_探索Chipotle快餐数据


下一篇:django-filter详解