pandas

查看版本

import pandas as pd
pd.__version__

读取数据

读取csv

data=pd.read_csv('路径',<sep='分隔符',header='表头',names=['列名1','列名2'...]>) #txt也可以用这个命令读取
参数 解释 默认
skiprows 跳过指定行 数字:如2,表示跳过前2行,因为从0开始的,左开右闭
range(n):如range(2),等同于[0,1],左开右闭
列表:如[0,1],同上
表达式:lambda x : x%2 ==0,表示偶数行的都跳过
true_values/false_values 将指定的文本转化成True或者False None 列表:如true_values=['David','lisa'],会将David和lisa转化成True
converters 列数据处理 字典:如converters={列名1或索引1:函数1或lambda表达式1,列名2或索引2:函数2或lambda表达式2},其中函数,如fn(当然要事先写好fn)或者lambda x : x+2,就会根据函数将列数据处理后再读取
dtype 指定读取后的列的数据类型 指定数据类型:如np.float64,表示所有列都是这个类型
字典:如{'a':np.float64,'b':str},表示对指定列分配指定的类型
列表:如[np.float64,str,int64],表示对列分别指定类型,列表长度跟列的数量一定要对应
mangle_dupe_cols 处理重复列名的方式 True:列名有重复时,解析列名将变为X, X.1, …, X.N
False:那么当列名中有重复时,前列将会被后列覆盖
usecols 挑选指定列 列表:名称列表['a','b']或者索引列表[0,1,2],注意跟筛选功能不同,即使改变列表中的列的顺序,如[2,1,0],显示也不会发生改变,仅仅是挑选
sep
header 数字:表示设置第几行为表头
None:没有表头
index_col 索引列 数字:第几列为索引,从0开始
已有的列名:指定该列为索引列
列表:如['a','b']或[0,1],指定多个索引
prefix 指定一个前缀加序数的名称作为列名,配合header=None使用 字符串:比如prefix='c_',那么生成的列名就是c_0,c_1...
names 列表:比如['a','b'],表示指定该列表的元素为列名称(表头),跟header=None同时使用
skipfooter 从尾部跳过行 数字:如1,表示最后一行不加载,如2,表示最后两行不加载
skip_blank_lines 指定是否跳过空行 True(表示跳过空行) False:不跳过空行,空行数据全部为NaN
nrows 读取指定行数 None(表示全部读取) 数字:如1000,表示读取1000行

读取Excel

df=pd.read_excel('路径(可以是网络路径)')
参数 解释 默认值
sheet_name 指定读取哪个sheet 0(表示第一个) 数字:表示第几个,从0开始
sheet名称:指定读取的sheet名称
列表:可以是索引和名称的混合列表,如[0,'Sheet2'],但是注意读取出来的数据是个字典,要按照列表中对应的名称或索引来查询,比如df[0]表示第一张表,而不能用df['Sheet1'],列表中用的是啥,就必须用啥来查询
None:表示读取所有sheet,返回的是字典,键名是sheet的名称

导出数据

导出到Excel

df.to_excel(r'E:\python数据分析\1.xlsx')

#将不同的df导入到不同的sheet中
with pd.ExcelWriter('路径') as writer:
  df1.to_excel(writer,sheet_name='sheet名称1')
  df2.to_excel(writer,sheet_name='sheet名称2')
上一篇:【每日一题】day13_01 跳石板


下一篇:day13-1re模块