Python编程：读取pdf、pptx、docx、xlsx文件的页数

2021-08-19 07:05:13

pdf

安装工具

pip install pdfplumber

代码示例

import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError

def get_pdf_page(pdf_path):
    try:
        f = pdfplumber.open(pdf_path)
        page = len(f.pages)
    except PDFSyntaxError:
        page = 0
    return page

pptx

安装工具

 pip install python-pptx

代码示例

from pptx import Presentation

def get_pptx_page(pptx_path):
    try:
        p = Presentation(pptx_path)
        page = len(p.slides)
    except KeyError:
        page = 0
    return page

docx、xlsx

Word是流动分页的，文件内容本身并不存储分页结果。具体分页时断在哪里、最后分出多少页，都需要现场渲染所有的图文内容之后才能确定。

Word文件中仅包含了一行一行的文本，与页面设置中指定的页面尺寸。

Word每次打开文件时都会一行一行“摆放”文本数据，发现一页装不下了自动新开一页

所以，读取页数是不对的

参考

码农公寓

pdf

代码示例

pptx

代码示例

docx、xlsx

相关文章