ElasticSearch（ES）倒排索引原理

2024-01-23 12:44:34

转载自：https://www.jianshu.com/p/323547de1bb2

例如，假设我们有两个文档，每个文档的content域包含如下内容：

文档一：The quick brown fox jumped over the lazy dog
文档二：Quick brown foxes leap over lazy dogs in summer

为了创建倒排索引，我们首先将每个文档的content域拆分成单独的词（我们称它为词条或tokens），创建一个包含所有不重复词条的排序列表，然后列出每个词条出现在哪个文档。结果如下所示：

现在，如果我们想搜索quick brown，我们只需要查找包含每个词条的文档：

结论：
如果我们仅使用计算匹配词条数量的简单相似性算法，那么，我们可以说，对于我们查询的相关性来讲，第一个文档比第二个匹配度更高

但是，我们目前的倒排索引有一些问题：（大小写、同义词，扩展词）

使用前面的索引搜索 +Quick +fox 不会得到任何匹配文档。（ +前缀表明这个词必须存在，即，只有同时出现Quick和fox的文档才满足这个查询条件），虽然第一个文档包含quick fox，第二个文档包含Quick foxes。

我们的用户可以合理的期望两个文档与查询匹配。我们可以做的更好。

如果我们将词条规范为标准模式，那么我们可以找到与用户搜索的词条不完全一致，但具有足够相关性的文档。例如：

现在索引看上去像这样：

这还远远不够。我们搜索+Quick +fox仍然会失败，因为在我们的索引中，已经没有Quick了。但是，如果我们对搜索的字符串使用与content域相同的标准化规则，会变成查询+quick +fox，这样两个文档都会匹配！

码农公寓