从PDF python中提取/识别表格

是否有任何支持表格识别的开源库?萃取?

我的意思是:

>识别存在的表结构
>从表中对表进行分类
>以有用的输出格式从表格中提取数据,例如JSON / CSV等

我在这个主题上看了类似的问题,发现了以下内容:

> PDFMiner解决问题3,但似乎用户需要指定PDFMiner,其中每个表都存在表结构(如果我错了,请纠正我)
> pdf-table-extract试图解决问题1但是根据To-Do列表,当前无法识别由空格分隔的表.这是一个问题,因为我的PDF中的所有表都是用空格分隔的!

目前,我认为我将不得不花费大量时间开发机器学习解决方案来识别PDF中的表格结构.因此,任何替代方法都非常受欢迎!

解决方法:

你一定要看看我的这个答案:

> Extracting table contents from a collection of PDF files

并查看其中包含的所有链接.

Tabula/TabulaPDF是目前最好的表格提取工具,可用于PDF抓取.

上一篇:javascript – 如何正确使用mechanize刮掉AJAX网站


下一篇:如何编写python脚本来搜索网站html以获得匹配的链接