Python操作Excel表格的模块xlrd的简单介绍
处理数据对Python来说,比较容易,操作简单,功能强大,短短几行代码,就可处理大量的数据信息,下面介绍Python处理Excel表格的一个模块:xlrd。
一、xlrd简介及安装
xlrd是Python处理Excel表格数据的一个模块,他可以对Excel数据进行读取,包括:
1、读取Excel的行数、列数、行的值、列的值、
2、读取单元格的值、数据类型
3、增加、删除、修改表格数据
4、导出导入工作表等
xlrd的安装比较简单,只要打开cmd命令框,然后输入:pip install xlrd即可,或者打开编译器jupyter book,然后在代码栏里输入:pip install xlrd也可以安装,然后在代码栏里输入如下代码查看是否安装成功(能看到版本号即表示安装成功):
import xlrd
xlrd.__version__ # __ 是双下划线
二、xlrd函数介绍
1、open_workbook(path)
顾名思义,此函数就是打开工作表格,即打开一个Excel表,path为Excel文件的路径。其操作如下:
import xlrd
xls = xlrd.open_workbook("file/编程语言排名.xls")
open_workbook()函数返回的是一个对象,即指向Excel工作表“编程语言排名.xls”的一个指针,有了这个对象,我们就可以对表格进行各种操作了。
2、获取Excel工作表中的sheet
获取打开的工作表格中的sheet表有3种方法:
2.1、xls.sheets()[索引]:索引从 0 开始,对应sheet1、sheet2、sheet3...
2.2、xls.sheet_by_index(索引):索引从 0 开始,对应sheet1、sheet2、sheet3...
2.3、xls.sheet_by_name(sheet名称):此前提是知道表格中的sheet名称
以上返回的也是一个对象,即指向所获取的sheet表格的指针,有了这个对象,就可以对sheet里的内容进行操作了,如获取行数、列数、单元格内容等,另外,可以用xls.sheet_names()获取工作表格中的所有sheet名称,如:
# 获取工作表格的3种方法
sheet1 = xls.sheets()[0]
print(sheet1)
sheet2 = xls.sheet_by_index(0)
print(sheet2)
sheet3 = xls.sheet_by_name("2019年")
print(sheet3)
# 获取工作表格的所有sheet名称
sheet_name = xls.sheet_names()
print(sheet_name)
执行结果:
3、nrows与ncols
我们都知道row和col是行和列,那么nrows和ncols就是行数和列数了,即我们用sheet.nrows和sheet.ncols就可以获取我们所打开的工作表的函数和列数,其操作如下:
sheet_names = xls.sheet_names() # 获取所有 sheet 表格的名称
for i in range(3):
sheet = xls.sheets()[i] # 获取表格 sheetx 对象
rows = sheet.nrows # 获取工作表格的行数
cols = sheet.ncols # 获取工作表格的列数
print('表格 "{}" 总共有 {} 行,{} 列'.format(sheet_names[i],rows,cols)) # 打印输出
执行结果:
4、获取行数据的函数
对行进行数据获取有以下函数:
4.1、sheet.row(n):获取第 n 行的数据,其中 n 为行数,从 0 开始,返回该行所有单元格数据组成的列表。
4.2、sheet.row_slice(n):获取第 n 行的数据,其中 n 为行数,从 0 开始,返回该行所有单元格数据组成的列表。
4.3、sheet.row_types(rowx = n, start_colx = x, end_colx = y):获取第 n 行的数据类型,其中 start_colx 和 end_colx(若为None则获取到结束) 为列的范围,即指定行数 n,然后指定列的范围 x 和 y,可以简写为:sheet.row_types(n,x,y),返回获取的数据类型组成的列表。
注:总共有 5 种类型:0 empty,1 string,2 number,3 date,4 boolean,5 error
4.4、sheet.row_values(rowx = n, start_colx = x, end_colx = y):获取第 n 行的数据,其中 start_colx 和 end_colx(若为None则获取到结束) 为列的范围,即指定行数 n,然后指定列的范围 x 和 y,可以简写为:sheet.row_values(n,x,y)返回获取的数据组成的列表。
4.5、sheet.row_len(n):获取第 n 行的有效长度。注:列没有此函数。
data = sheet1.row(0) # 获取第 1 行的数据
print(data)
data = sheet1.row_slice(1) # 获取第 2 行的数据
print(data)
data = sheet.row_types(rowx = 0,start_colx = 0,end_colx = 5) # 获取第 1 行,第 1-5 列的数据
print(data)
data = sheet.row_values(1,0,3) # 获取第 2 行,第 1-3 列的数据
print(data)
num = sheet.row_len(0)# 获取第 1 行的有效长度
print(num)
执行结果:
5、获取行数据的函数
对列进行数据获取有以下函数:
5.1、sheet.cols(n):获取第 n 列的数据,其中 n 为列数,从 0 开始,返回该列所有单元格数据组成的列表。
5.2、sheet.col_slice(n):获取第 n 列的数据,其中 n 为列数,从 0 开始,返回该列所有单元格数据组成的列表。
5.3、sheet.col_types(colx = n, start_rowx = x, end_rowx = y):获取第 n 列的数据类型,其中 start_rowx 和 end_rowx(若为None则获取到结束) 为行的范围,即指定列数 n,然后指定行的范围 x 和 y,可以简写为:sheet.col_types(n,x,y),返回获取的数据类型组成的列表。
注:总共有 5 种类型:0 empty,1 string,2 number,3 date,4 boolean,5 error
5.4、sheet.col_values(rowx = n, start_rowx = x, end_rowx = y):获取第 n 列的数据,其中 start_rowx 和 end_rowx(若为None则获取到结束) 为行的范围,即指定列数 n,然后指定行的范围 x 和 y,可以简写为:sheet.col_values(n,x,y)返回获取的数据组成的列表。
data = sheet1.col(0) # 获取第 1 行的数据
print("第一列的数据为:",data)
data = sheet1.col_slice(1) # 获取第 2 行的数据
print("第二列的数据为:",data)
data = sheet.col_types(colx = 0,start_rowx = 0,end_rowx = 5) # 获取第 1 行,第 1-5 列的数据
print("第一列,第1-5行的数据为:",data)
data = sheet.col_values(1,0,3) # 获取第 2 行,第 1-3 列的数据
print("第二列,第1-3行的数据为:",data)
执行结果:
6、获取单元格数据的函数
对单元格进行数据获取有以下函数:
6.1、sheet.cell(rowx = n, colx = m):获取第 n 行,第 m 列对应的单元格数据(返回的是单元格类型数据,要想获取数据本身,可以使用sheet.cell(n, m).value)。
6.2、sheet.cell_type(rowx = n, colx = m):获取第 n 行,第 m 列对应的单元格数据类型。
6.3、sheet.cell_value(rowx = n, colx = m):获取第 n 行,第 m 列对应的单元格数据。
data = sheet.cell(rowx = 2, colx = 3) # 获取第 3 行,第 4 列对应的单元格数据
print("第 3 行,第 4 列对应的单元格数据为:",data)
print("第 3 行,第 4 列对应的单元格数据为:",data.value)
data = sheet.cell_type(2,3) # 获取第 3 行,第 4 列对应的单元格数据类型
print("第 3 行,第 4 列对应的单元格数据类型为:",data)
data = sheet.cell_value(2,1) # 获取第 3 行,第 2 列对应的单元格数据
print("第 3 行,第 2 列对应的单元格数据为:",data)
执行结果:
7、整体操作
下面的例子为获取工作表格“编程语言排名.xls”所有数据:
import xlrd # 导入模块
table = xlrd.open_workbook("file/编程语言排名.xls") # 打开本地Excel表格:编程语言排名.xls
sheet_names = table.sheet_names() # 获取工作簿的所有表格名称
for i in range(len(sheet_names)): # 依次获取表格数据
sheet = table.sheets()[i]
rows = sheet.nrows
for j in range(rows): # 循环打印表格数据
data = sheet.row_values(j,0,None)
print("表格 {} 第 {} 行的数据为:{}".format(sheet_names[i],j+1,data))
print("-"*100)
执行结果:
以上为Python操作Excel表格的模块xlrd的简单介绍,这个比较简单,当然还有其他的操作模块,如pandas,后续会介绍。