c#-Solr和.Net筛选器

2022-08-10 16:37:10

我对Solr的奇妙世界比较陌生,并且有以下问题.就提取文档结构并将其传递到Solr进行索引而言,处理文档的最佳方法是什么.

我希望能够从Word Docs,PDF,电子表格,HTML页面等中提取文本.实际上,几乎任何包含文本的文档都可以.

我看过Windows过滤器,乍一看它们似乎提供了我所需的功能.

这是你会怎么做的吗？

森

解决方法:

您可能希望查看Solr Cell项目.我假设您正在使用c#客户端-但是您可能需要使用Java工具对服务器进行所有内容提取/映射.

Solr Cell页面上有关于如何使用Apache Tika的说明,该代码可以包装从多种格式(如Word或PDF)提取文本(和一些元数据)的库.