在python 3中解析.docx

我目前正在编写一个python 3程序,它解析某些docx文件并从中提取文本和图像.我一直在尝试使用docx,但它不会导入我的程序.我已经安装了lxml,Pillow和python-docx但它没有导入.当我尝试从终端使用python-docx时,我无法使用example-extracttext.py或example-makedocument.py,这让我相信安装没有正常运行.有没有办法可以检查这是否正确安装或是否有办法使其正常工作,以便我可以将其导入我的项目?我在Ubuntu 13.10上.

解决方法:

我建议你尝试最新版本的python-docx,安装方式如下:

$pip install --pre python-docx

文档可在此处获取:http://python-docx.readthedocs.org/

安装应该会产生看起来成功的消息.您可能需要使用sudo来安装以暂时承担root权限:

$sudo pip install --pre python-docx

安装后,您应该能够在Python解释器中执行以下操作:

>>> from docx import Document
>>>

如果你得到这样的东西,安装没有正确:

>>> from docx import Document
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ImportError: No module named docx

由于您可以提供更多有关您尝试的反馈,我可以详细说明答案.

请注意,在v0.2.x之后,python-docx包被重写了. v0.3.x的API以及包名称和存储库位置不同.所有进一步的开发将在新版本上.如果你刚刚开始使用最新的软件包可能是一个好主意,因为旧版本将继续获得遗留支持.

此外,Python 3支持随v0.3.0一起添加.以前的版本不兼容Python 3.

上一篇:通过poi解析word(替换word中的部分内容)


下一篇:freemarker基于docx格式创建模板导出带图片pdf文件