我需要使用C#提取嵌入在Bankruptcy court files中的XML数据.在PDF Reader中,文件看起来像是典型的法庭文档.在记事本中,XML被埋在文本中.我尝试使用SimpleTextExtractionStrategy提取具有this和another code snippet的文本.第一个输出的文件中没有来自PDF的可识别文本,第二个输出的文件符号.我还尝试将其作为AcroField和Xfaform访问.似乎不是基于“监视”窗口的那些.
单步执行Visual Studio中的代码,XML出现在PDFReader>>下.目录>>键>>原始>>非公众成员>>监视窗口中的字典.我不知道如何到达.因为它在Watch中与其他PDFName一起列出,所以我认为我可以通过PDFReader.Catalog.GetAsDict访问它,但它不会显示为PDFName.这些文件的提供者有一个Java应用程序,似乎只读取文本.不知道我是否需要使用其他提取策略,还是直接访问包含XML的目录项.我从来没有以编程方式使用PDF文件或iTextSharp,所以我很挣扎.有任何代码建议吗?
解决方法:
如果您可以将PDF与嵌入式XML共享,将很有帮助.当我第一次阅读您的问题时,我假设XML将作为文档级附件(存储在EmbeddedFiles中)或作为附件注释(存储在添加到页面字典中的Annot中)添加.
读取uscourts.gov上写的内容后,看起来XML实际上是XMP流.这意味着您可以在目录的“元数据”条目中找到它(或者可以在页面字典中找到它).
如果您无法共享文件,则必须自己做.您可以通过下载iText RUPS来做到这一点.它是一个免费的工具,可用于查看PDF.
浏览树结构,查找元数据,查找EmbeddedFiles,查找Annots.如果您不告诉我们XML的嵌入方式,那么没有人能够为您提供帮助.
有关示例,请参见我对以下问题的回答:How to delete attachment of PDF using itext
(看看我如何使用RUPS查看目录>名称> EmbeddedFiles).
额外说明:到目前为止,您尝试过的代码是有关从页面提取文本的,而不是有关提取嵌入PDF的XML文件的.
更新:
现在,您已经共享了文件,我已经使用RUPS查找XML文件.看一下以下屏幕截图:
你看到这里发生了什么吗?有人在目录中添加了一个名为/ USCTbankruptcynotice的自定义条目,其字符串作为值.太错了:将文件存储在字符串中是一个坏主意.该开发人员为什么不将文件存储为流?对于雇用这样的开发人员的人,我感到很难过.
话虽如此,这是提取XML的方式:
PdfDictionary catalog = reader.Catalog;
PdfName name = new PdfName("USCTbankruptcynotice");
PdfString USCTbankruptcynotice = catalog.GetAsString(key);
string xml = USCTbankruptcynotice.ToString();
这是从内存写入的.如果您需要进行小的更正,请更新我的答案.