是否有任何支持表格识别的开源库?萃取?
我的意思是:
>识别存在的表结构
>从表中对表进行分类
>以有用的输出格式从表格中提取数据,例如JSON / CSV等
我在这个主题上看了类似的问题,发现了以下内容:
> PDFMiner解决问题3,但似乎用户需要指定PDFMiner,其中每个表都存在表结构(如果我错了,请纠正我)
> pdf-table-extract试图解决问题1但是根据To-Do列表,当前无法识别由空格分隔的表.这是一个问题,因为我的PDF中的所有表都是用空格分隔的!
目前,我认为我将不得不花费大量时间开发机器学习解决方案来识别PDF中的表格结构.因此,任何替代方法都非常受欢迎!
解决方法:
你一定要看看我的这个答案:
> Extracting table contents from a collection of PDF files
并查看其中包含的所有链接.
Tabula/TabulaPDF是目前最好的表格提取工具,可用于PDF抓取.