Elaticsearch 6.8 算分介绍

2022-02-06 07:34:02

前段时间写多项式算分插件，发现 ES 的算分概念还是挺多的，主要有 Query, Weight, Scorer。本文简单介绍一下，不过还有一些细节看得也不清晰，如果有错，欢迎斧正

首先看下 ES 的查询流程
- HTTP 收到请求，按 Shard 分发到 Data
- Data 按 shard 查询结束后，发往 http merge, 然后再发往 Data fetch
- 算分便是发生在 lucene:search (org.apache.lucene.search.IndexSearcher#search) 中

算分整体分为四步
1. 从 Query 依次按层构建 Weight
2. 从 Weight 构建 BulkScorer
3. 从 BulkScorer 构建 Scorer
4. Collector 收集时用 Scorer 按文档打分，得到分数

熟悉 ES 的同学可能都知道我们写的查询在 ES 内部都是 QueryBuilder，那么 Query 是什么呢？又怎么从 QueryBuilder 转换到 Query 的呢？
QueryBuilder 为 ES 内部对象，用于和用户(XContent)以及集群间传递(Stream)。QueryBuilder 均有两个方法 toQuery , ToFilter 。分别转为普通的 lucene Query 和不用算分的 lucene Query。不过 toFilter 目前基本无使用。大多 QueryBuilder 采用 AbstractQueryBuilder 实现，用户仅需实现自定义序列化反序列化及 doToQuery 即可
Query 为 lucene 内部对象, 用于 Lucene 中的查询，主要有两个核心方法, rewrite 和 createWeight
- rewrite 将高阶 query 改写为基础 query，比如 fuzzy,prefix,query_string,regexp,wildcard，改写成 bool query 或者 bitset , 在 es 中也可使用 _validate/query?rewrite=true 直接看到改写结果

createWeight 则是构造用于查询的 Weight，在其中可以指定要不要算分，当不要算分时，有些 query 会进行改写，比如 bool query 会将 must 移入 filter。另外也只有不要算分时，weight 才会进缓存。

The purpose of Weight is to ensure searching does not modify a Query, so that a Query instance can be reused.

可见，Weight 最大的作用就是保存和 IndexSearcher 相关的状态，类似 Query 级的上下文，来保证 Query 的复用。（不过没看出有对 Query 的复用？）
Weight 主要有4个核心方法，1个辅助方法
- scorer 打分器
  - 传入一个 LeafReaderContext ，返回一个"打分器", 为什么加引号，详见下文介绍
- bulkScorer
  - 批量打分器，search 调用的入口方法，方便在批量场景下做优化，比如二阶段查询加速,倒排链合并，大多数场景采用 DefaultBulkScorer
- scorerSupplier
  - 可以在不够造 scorer 之前先判断一下 cost。不过默认的实现是先创建了个 scorer 然后取了其迭代器的 cost
- extractTerms
  - 获得 query 中的 term，term query a:b, 则会获得b . dfs 和高亮时会用到，如未实现，则无法高亮。如 terms 当 term 数大于16时，则会走 TermInSetQuery 的 weight, 其未实现此方法，因此无法高亮
- explain
  - 解释某篇 doc 命中/没命中及分数原因
- matches
  - 判断某个 doc 有没有命中，如果有二阶段，则先用二阶段粗略判断一次。返回一个MatchesIterator 仅测试中用到

Scorer 虽名为打分器，但实际由两部分组成，score 和 iterator，score 为真实打分逻辑，iterator 为命中 doc 的迭代器，也就是在生成 scorer 时才去查询了哪些 doc 命中，也因此即使无需算分时，也需要有 scorer 对象，仅是 score 方法返回固定值。
那么 Scorer 和相似性算分 Similarity 又是什么关系呢？
- Similarity 的具体实现为 SimScorer, 其为 TermScorer 的一部分，在 termScorer 算分时会调用相似性算分

所以，总结一下，要实现一个算分需要怎么样呢？首先 QueryBuilder 转换时要用 toQuery, 然后 needsScores 为 true, 然后 bulkScorer 中给 collector 设置了 scorer, 最后在 Collector 中调用 score 方可完成算分。

码农公寓