Solr游标查询提高翻页效率

2023-08-11 16:53:04

长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。与最近发布的Solr的版本中，Solr使用了所谓的游标大幅度提高深翻页的性能。

问题
深分页的问题是很清楚。Solr必须为返回的搜索结果准备一个列表，并返回它的一部分。如果该部分来源于该列表的前面并不难。但如果我们想返回第10000页（每页20条记录）的数据，Solr需要准备一个包含大小为200000（10000
* 20）的列表。这样，它不仅需要时间，还需要内存。

令人高兴的是，Solr
4.7的发布改变了这一状况，引入了游标的概念。游标是一个动态结构，不需要存储在服务器上。游标包含了查询的结果的偏移量，因此，Solr的不再需要每次从头开始遍历结果直到我们想要的记录，游标的功能可以大幅提升深翻页的性能。但是是以消耗内存为代价的。(据个人测算10G的索引需要jvm为3.5G左右)。

用法
游标的使用非常简单。在第一个查询中，我们需要传递一个额外的参数- cursorMark = *，告诉Solr返回游标。在返回中除了搜索结果，我们还可以得到nextCursorMark信息。看看下面这个例子。

例如：

1.我们从一个简单的查询开始：
curl 'localhost:8983/solr/select?q=*:*&rows=1&sort=score+desc,id+asc&cursorMark=*
这里我们传入一个cursorMark = *参数，告诉Solr的，我们要使用的光标。
返回值除了平时返回的结果外，还多了一个游标数据nextCursorMark="AoIIP4AAACgwNTc5QjAwMg=="，使用这个值作为我们翻下一页的参数。
2.下一页查询：
curl 'localhost:8983/solr/select?q=*:*&rows=1&sort=score+desc,id+asc&cursorMark=AoIIP4AAACgwNTc5QjAwMg=='
这样就查询出下一页数据，同样也返回了nextCursorMark参数。依次迭代即可实现翻页功能。

总结
Solr的4.7引入的这个游标参数非常简单，大大提升了翻页的效果

详细的测试报告看这里：
http://searchhub.org/2013/12/12/coming-soon-to-solr-efficient-cursor-based-iteration-of-large-result-sets

码农公寓

相关文章