sphinx（一）全文检索引擎sphinx

2023-12-23 16:02:51

一：sphinx简介

Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为MySQL 也设计了一个存储引擎插件。

二：sphinx特性

1：高速的建立索引(在当代CPU上，峰值性能可达到10 MB/秒);

2：高性能的搜索(在2 – 4GB 的文本数据上，平均每次检索响应时间小于0.1秒);

3：可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);

4：提供了优秀的相关度算法，基于短语相似度和统计（BM25）的复合Ranking方法;

5：支持分布式搜索;

6：支持短语搜索

7：提供文档摘要生成

8：可作为MySQL的存储引擎提供搜索服务;

9：支持布尔、短语、词语相似度等多种检索模式;

10：文档支持多个全文检索字段(最大不超过32个);

11：文档支持多个额外的属性信息(例如：分组信息，时间戳等);

12：支持断词;

三：sphinx执行的过程

步骤1：通过sphinx去MySQL中获取并建立索引文件

步骤2：通过php去sphinx中查询数据并返回ID

步骤3：根据ID去MySQL中查询具体数据

Database：数据源，是sphinx做索引的数据来源。

Indexer：索引程序，从数据源中获取数据，并将数据生成全文索引。根据需求定期运行Indexer达到定时更新索引的需求。

sphinx使用配置文件从数据库读出数据之后，就将数据传递给Indexer程序，然后Indexer会逐条读取记录，根据分词算法对每条记录建立索引，分词算法可以是一元分词或mmseg分词。

Searchd：Searchd直接与客户端程序进行对话，并使用Indexer程序构建好的索引来快速地处理搜索查询。

App客户端：接收来自用户输入的搜索字符串，发送查询给searchd程序并显示返回结果。

四：Sphinx的工作原理

Sphinx的整个工作流程就是Indexer程序到数据库里面提取数据，对数据进行分词，然后根据生成的分词生成单个或多个索引，并将它们传递给searchd程序。然后客户端可以通过API调用进行搜索。

五：使用场景

1、快速、高效、可扩展和核心的全文检索

数据量大的时候，比MyISAM和InnoDB都要快。

能对多个源表的混合数据创建索引，不限于单个表上的字段。

能将来自多个索引的搜索结果进行整合。

能根据属性上的附加条件对全文搜索进行优化。

2、高效地使用WHERE子句和LIMIT字句

当在多个WHERE条件做SELECT查询时，索引选择性较差或者根本没有索引支持的字段，性能较差。sphinx可以对关键字做索

引。区别是，MySQL中，是内部引擎决定使用索引还是全扫描，而sphinx是让你自己选择使用哪一种访问方法。因为sphinx是

把数据保存到RAM中，所以sphinx不会做太多的I/O操作。而mysql有一种叫半随机I/O磁盘读，把记录一行一行地读到排序缓冲

区里，然后再进行排序，最后丢弃其中的绝大多数行。所以sphinx使用了更少的内存和磁盘I/O。

3、优化GROUP BY查询

在sphinx中的排序和分组都是用固定的内存，它的效率比类似数据集全部可以放在RAM的MySQL查询要稍微高些。

4、并行地产生结果集

sphinx可以让你从相同数据中同时产生几份结果，同样是使用固定量的内存。作为对比，传统SQL方法要么运行两个查询，要么

对每个搜索结果集创建一个临时表。而sphinx用一个multi-query机制来完成这项任务。不是一个接一个地发起查询，而是把几个查询做成一个批处理，然后在一个请求里提交。

5、向上扩展和向外扩展

向上扩展：增加CPU/内核、扩展磁盘I/O

向外扩展：多个机器，即分布式sphinx

6、聚合分片数据

适合用在将数据分布在不同物理MySQL服务器间的情况。

例子：有一个1TB大小的表，其中有10亿篇文章，通过用户ID分片到10个MySQL服务器上，在单个用户的查询下当然很快，如

果需要实现一个归档分页功能，展示某个用户的所有朋友发表的文章。那么就要同事访问多台MySQL服务器了。这样会很慢。而

sphinx只需要创建几个实例，在每个表里映射出经常访问的文章属性，然后就可以进行分页查询了，总共就三行代码的配置。

有好的建议，请在下方输入你的评论。

欢迎访问个人博客
https://guanchao.site

欢迎访问小程序：

码农公寓

sphinx使用配置文件从数据库读出数据之后，就将数据传递给Indexer程序，然后Indexer会逐条读取记录，根据分词算法对每条记录建立索引，分词算法可以是一元分词或mmseg分词。

相关文章