查看版本
import pandas as pd
pd.__version__
读取数据
读取csv
data=pd.read_csv('路径',<sep='分隔符',header='表头',names=['列名1','列名2'...]>) #txt也可以用这个命令读取
参数 | 解释 | 默认 | 值 |
---|---|---|---|
skiprows | 跳过指定行 | 数字:如2,表示跳过前2行,因为从0开始的,左开右闭 range(n):如range(2),等同于[0,1],左开右闭 列表:如[0,1],同上 表达式:lambda x : x%2 ==0,表示偶数行的都跳过 |
|
true_values/false_values | 将指定的文本转化成True或者False | None | 列表:如true_values=['David','lisa'],会将David和lisa转化成True |
converters | 列数据处理 | 字典:如converters={列名1或索引1:函数1或lambda表达式1,列名2或索引2:函数2或lambda表达式2},其中函数,如fn(当然要事先写好fn)或者lambda x : x+2,就会根据函数将列数据处理后再读取 | |
dtype | 指定读取后的列的数据类型 | 指定数据类型:如np.float64,表示所有列都是这个类型 字典:如{'a':np.float64,'b':str},表示对指定列分配指定的类型 列表:如[np.float64,str,int64],表示对列分别指定类型,列表长度跟列的数量一定要对应 |
|
mangle_dupe_cols | 处理重复列名的方式 | True:列名有重复时,解析列名将变为X, X.1, …, X.N False:那么当列名中有重复时,前列将会被后列覆盖 |
|
usecols | 挑选指定列 | 列表:名称列表['a','b']或者索引列表[0,1,2],注意跟筛选功能不同,即使改变列表中的列的顺序,如[2,1,0],显示也不会发生改变,仅仅是挑选 | |
sep | |||
header | 数字:表示设置第几行为表头 None:没有表头 |
||
index_col | 索引列 | 数字:第几列为索引,从0开始 已有的列名:指定该列为索引列 列表:如['a','b']或[0,1],指定多个索引 |
|
prefix | 指定一个前缀加序数的名称作为列名,配合header=None使用 | 字符串:比如prefix='c_',那么生成的列名就是c_0,c_1... | |
names | 列表:比如['a','b'],表示指定该列表的元素为列名称(表头),跟header=None同时使用 | ||
skipfooter | 从尾部跳过行 | 数字:如1,表示最后一行不加载,如2,表示最后两行不加载 | |
skip_blank_lines | 指定是否跳过空行 | True(表示跳过空行) | False:不跳过空行,空行数据全部为NaN |
nrows | 读取指定行数 | None(表示全部读取) | 数字:如1000,表示读取1000行 |
读取Excel
df=pd.read_excel('路径(可以是网络路径)')
参数 | 解释 | 默认值 | 值 |
---|---|---|---|
sheet_name | 指定读取哪个sheet | 0(表示第一个) | 数字:表示第几个,从0开始 sheet名称:指定读取的sheet名称 列表:可以是索引和名称的混合列表,如[0,'Sheet2'],但是注意读取出来的数据是个字典,要按照列表中对应的名称或索引来查询,比如df[0]表示第一张表,而不能用df['Sheet1'],列表中用的是啥,就必须用啥来查询 None:表示读取所有sheet,返回的是字典,键名是sheet的名称 |
导出数据
导出到Excel
df.to_excel(r'E:\python数据分析\1.xlsx')
#将不同的df导入到不同的sheet中
with pd.ExcelWriter('路径') as writer:
df1.to_excel(writer,sheet_name='sheet名称1')
df2.to_excel(writer,sheet_name='sheet名称2')