Sphinx实时索引

2022-10-28 21:31:51

数据库中的数据很大，然后我有些新的数据后来加入到数据库中，也希望能够检索到，全部重新建立索引很消耗资源，这样需要用到“主索引+增量索引”的思路来解决，这个模式实现的基本原理是设置两个数据源和两个索引。

1、创建一个计数器

一个简单的实现是，在数据库中增加一个计数表，记录将文档集分为两个部分的文档 ID,每次重新构建主索引时，更新这个表

先在 mysql 中插入一个计数表

CREATE TABLE sph_counter( counter_id INTEGER PRIMARY KEY NOT NULL, max_doc_id INTEGER NOT NULL);

2、再次修改配置文件

主数据源，继承数据源，主索引，继承索引。（继承索引也就是增量索引）。

主数据源里面:我们需要把欲查询语句改成下面的语句:

Vi /usr/local/coreseek/etc/csft.conf

Source main{

把sql_query_pre的改成下面的语句

sql_query_pre = REPLACE INTO sph_counter SELECT 1, IFNULL(MAX(id),0) FROM post

sql_query= \

SELECT id,title, content FROM post \

WHERE id<=(SELECT max_doc_id FROM sph_counter WHERE counter_id=1)

}

继承数据源:

source delta : main

{

sql_query_pre = SET NAMES utf8

sql_query

= \

SELECT id,title, content FROM post \

WHERE id>(SELECT max_doc_id FROM sph_counter WHERE counter_id=1)

}

主索引:

把名字该成想对应的

Index main {

source = main

path = /usr/local/coreseek/var/data/main

}

继承索引(也是增量索引)

index delta:main

{

source= delta

path= /usr/local/coreseek/var/data/delta

}

剩下的基本不用改变

注意:如果你增量索引的 source 配置中只有 id,content 三项

而主索引的 source 配置中有 id, title,content 四项，合并的时候会报属性数量不匹配，如:

Delta:sql_query = SELECT id, title,content FROM post

Main:sql_query=SELECT id,title,date,content FROM post

3、测试增量索引+主索引

如果想测试增量索引是否成功，往数据库表中插入数据，查找是否能够检索到，这个时候检索应该为空，然后，单独重建增量索引

/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft.conf delta

查看是否将新的记录进行了索引，如果成功

此时，再用/usr/local/coreseek/bin/search 工具来检索，能够看到，在主索引中检索到的结果为 0，而在增量中检索到结果。当然，前提条件是，检索的词，只在后来插入的数据中存在

4、实时更新索引

我们需要建立两个脚本，还要用到计划任务

建立一个主索引和增量索引的脚本

main.sh delta.sh

在增量索引中写下delta.sh

#!/bin/bash

#delta.sh

/usr/local/coreseek/bin/indexer delta –rotate >> /usr/local/coreseek/var/log/delta.log

主索引中写下:main.sh意思就是合并索引

#!/bin/bash

#main.sh

/usr/local/coreseek/bin/indexer main –rotate >> /usr/local/coreseek/var/log/merge.log

最后，我们需要脚本能够自动运行，以实现增量索引每5分钟重新建立，和主索引只在凌晨2:30时重新建立.

脚本写好了，我们需要建立计划任务

crontab -e

*/10 * * * * /usr/local/coreseek/etc/delta.sh

30 2 * * * /usr/local/coreseek/etc/main.sh

第一条是表示每5分钟运行

第二条是表示每天的凌晨2:30分运行

脚本权限:

chmod a+x delta.sh

chmod a+x main.sh

要验证的话，我们可以查看日志文件

分布式索引

分布式是为了改善查询延迟问题和提高多服务器、多 CPU 或多核环境下的吞吐率，对于大量数据（即十亿级的记录数和 TB 级的文本量）上的搜索应用来说是很关键的

分布式思想:对数据进行水平分区（HP，Horizontally partition），然后并行处理，

当searchd收到一个对分布式索引的查询时，它做如下操作

1. 连接到远程代理.

2. 执行查询.

3. 对本地索引进行查询.

4. 接收来自远程代理的搜索结果.

5. 将所有结果合并，删除重复项.

6. 将合并后的结果返回给客户端.

index dist

{

type = distributed

local = chunk1

agent = localhost:9312:chunk2 本地

agent = 192.168.100.2:9312:chunk3 远程

agent = 192.168.100.3:9312:chunk4 远程

}

Chunck为索引名称

码农公寓

相关文章