最近要做个文章搜索,对全文检索原理以及es原理进行了一些调研,
1、 es索引文件为多个文本文件描述,索引文件中的内容构成可见
http://elasticsearch.cn/article/86
2、 检索原理,首先查询分析器—>分析查询字段—>匹配文档—>根据配置打分系统或者说算法打分。
详细过程可见
http://es.xiaoleilu.com/100_Full_Text_Search/05_Match_query.html
一段话分词后查询和直接提交查询由引擎中的分词插件分词后查询,差异多大需要实际demo验证,理论上没查到相关信息。
3、 索引建立可采用分段式索引,避免每次重建索引时间过长以及重建索引导致查询失败。
4、 过多的段会增加扫描段的 个数据,检索性能下降,可以通过定时合并索引段的方式避免段过多导致性能下降。
重建索引并重灌数据会有一段时间的检索服务不可用
5、数量级别的不同,对于维护整个索引库需要的精力chayi。