从PDF python中提取/识别表格

2022-03-09 09:29:56

是否有任何支持表格识别的开源库？萃取？

我的意思是：

>识别存在的表结构
>从表中对表进行分类
>以有用的输出格式从表格中提取数据,例如JSON / CSV等

我在这个主题上看了类似的问题,发现了以下内容：

> PDFMiner解决问题3,但似乎用户需要指定PDFMiner,其中每个表都存在表结构(如果我错了,请纠正我)
> pdf-table-extract试图解决问题1但是根据To-Do列表,当前无法识别由空格分隔的表.这是一个问题,因为我的PDF中的所有表都是用空格分隔的！

目前,我认为我将不得不花费大量时间开发机器学习解决方案来识别PDF中的表格结构.因此,任何替代方法都非常受欢迎！

解决方法:

你一定要看看我的这个答案：

并查看其中包含的所有链接.

Tabula/TabulaPDF是目前最好的表格提取工具,可用于PDF抓取.

码农公寓