c#-最快的PDF->.NET项目文本库

我正在尝试创建一个应用程序,该应用程序基本上将是我的PDF集合的目录.我们正在谈论包含成千上万个PDF的15-20GB.我还计划包括全文搜索机制.我将使用Lucene.NET进行搜索(实际上是NHibernate.Search),并使用一个库进行PDF->文本转换.哪个是最佳选择?我正在考虑这些:

> PDFBox
> pdftotext(来自xpdf)通过C#包装器
> iTextSharp

编辑:其他好的选择似乎正在使用iFilter.与这些库相比,它们的性能(速度/质量)如何(Foxit / Adob​​e)?

商业图书馆可能是不可能的,因为这是我的私人项目,而且我确实没有商业解决方案的预算-尽管PDFTextStream看起来确实不错.

从我的read到pdftotext,比PDFBox快得多.与pdftotext相比,iTextSharp的性能如何?也许有人可以推荐其他好的解决方案?

解决方法:

如果是私人项目,这是否正在进行转换过程?例如.转换15-20Gb后,您仍要转换吗?

我问的原因是因为我正在尝试确定速度是否是您的主要问题.例如,如果是我在转换图书馆的书,那么我最关心的就是转换的质量,而不是速度.如有必要,我可以整夜/周末离开转换!

上一篇:微信公众号开发


下一篇:尝试用kotlin做一个app(二)