全文检索

全文检索

全文检索的概念

       索引文件是全文检索系统的主要构成部分(全文检索技术就是围绕着索引文件展开)。索引文件中的数据是有结构的,可以对文本数据做词,字,句,段的解析.索引文件是海量数据.

搜索引擎的结构(搜索系统)

  • 信息采集:收集数据源的所有源数据进行大数据的存储工作
  • 信息整理:源数据海量非结构化(网页),要经过整理的过程输出封装成(索引文件)
  • 搜索服务:应用系统,提供客户使用,调用索引文件的数据返回查询的结果全文检索

Lucene

  1.  lucene是一个开源的全文检索引擎工具包.早期全文检索所有的具体逻辑原理是通用,但是代码,工具需要自定义开发.Doug Cutting(hadoop)创世.极大提升了全文检索技术开发效率
  2. 特点

    ①:稳定,创建索引性能高(150GB/小时)

    ②:lucene基于java的技术,栈内存要求小1MB

    ③:增量索引和批量索引速度一样快

    ④:索引文件索引数据结构20%

    ⑤:支持多种主流搜索功能:短语,词项,多域,布尔,模糊,通配查询

 

 

 

 

 

 

 

 

 

上一篇:Elastic Search 语法总结


下一篇:java – Lucene区分大小写和不敏感的搜索