我对Solr的奇妙世界比较陌生,并且有以下问题.就提取文档结构并将其传递到Solr进行索引而言,处理文档的最佳方法是什么.
我希望能够从Word Docs,PDF,电子表格,HTML页面等中提取文本.实际上,几乎任何包含文本的文档都可以.
我看过Windows过滤器,乍一看它们似乎提供了我所需的功能.
这是你会怎么做的吗?
森
解决方法:
您可能希望查看Solr Cell项目.我假设您正在使用c#客户端-但是您可能需要使用Java工具对服务器进行所有内容提取/映射.
Solr Cell页面上有关于如何使用Apache Tika的说明,该代码可以包装从多种格式(如Word或PDF)提取文本(和一些元数据)的库.