Pandas用法

# pandas默认依赖xlrd库,故先安装xlrd
pip install xlrd
# 安装Pandas
pip install Pandas
Pandas 语法

复制代码
import Pandas as pd
# 首先初始化,engine默认是xlrd
s = pd.ExcelFile(path_or_buffer, engine=None)

# 接着parse
s.parse(sheet_name=0,header=0,names=None,index_col=None,usecols=None,
squeeze=False,converters=None,true_values=None,false_values=None,
skiprows=None,nrows=None,na_values=None,parse_dates=False,
date_parser=None,thousands=None,comment=None,skipfooter=0,
convert_float=True,mangle_dupe_cols=True,**kwds,)
Pandas 读取 Excel 文件非常简单,首先使用 Pandas 初始化 ExcelFile。其两个参数path_or_buffer 是我们要读取的文件路径。

Excel 文件名称建议使用英文路径及英文命名方式,尽量不要使用中文。

复制代码
import pandas as pd
path_or_buffer = r'D:\_Automation\lagouAPITest\tests_pytest_ddt\test_baidu_ddt.xlsx'
engine 是供 Pandas 使用的 engine,可选项为“xlrd”“openpyxl”“odf”和“pyxlsb”,如果不提供,默认使用 xlrd。

parse 函数的参数

初始化后,可以使用 s.parse() 函数。parse 函数有非常多的参数,在此我列出常用的几个。

sheet_name: Excel 的 sheet 名

sheet_name 可以是整型数字、列表名,或者上述两者组合。

复制代码
# 通过整型数字读取。读取第一个sheet。 Pandas sheet名下标以0开始
s = pd.ExcelFile(path_or_buffer, sheet_name = 0)
# 通过列表名读取
data = s.parse(sheet_name = 'iTesting')
# 通过index读取。读取第一个sheet
data = s.parse(sheet_name = 0)
#组合读取。读取第4个sheet,名为iTesting的sheet以及第7个sheet
data = s.parse(sheet_name = [3, 'iTesting', 'Sheet6'])
header:使用哪一行作为列名

header 默认值为 0,即第一行,也可以设置为 [0, x]。

(例如 [0,1] 意味着将前两行作为多重索引)

复制代码
data = s.parse(sheet_name = 'iTesting', header = 0)
需要注意: Pandas 默认使用第一行为 header,所以在 Excel 里,第一行必须是 title,如果第一行是数据,将会导致第一行数据被遗漏。如果不想要 header,可以参数传递 header=None。

usecols:待读取的列

usecols 接收整型,从 0 开始,例如 [0, 1, 2],也可以使用列名例如 “A:D, F”,表示读取 A 到 D 列,以及 F 列。

复制代码
data = s.parse(sheet_name = 'iTesting', usecols='A:D')
skiprows:读取时,跳过特定行

skiprows=n,跳过前 n 行;skiprows = [a, b, c],跳过第 a+1、b+1、c+1 行(索引从0开始)

复制代码
data = s.parse(sheet_name = 'iTesting', skiprows = [1,2,3])
nrows:需要读取的行数

仅仅列出要读取的行数

复制代码
data = s.parse(sheet_name = 'iTesting', nrows = 3)

上一篇:JSON.parse() 和 JSON.stringify() 的作用和注意点


下一篇:JSON.stringify()和JSON.parse()的区别,以及JSON.stringify()的妙用