全文检索
全文检索的概念
索引文件是全文检索系统的主要构成部分(全文检索技术就是围绕着索引文件展开)。索引文件中的数据是有结构的,可以对文本数据做词,字,句,段的解析.索引文件是海量数据.
搜索引擎的结构(搜索系统)
- 信息采集:收集数据源的所有源数据进行大数据的存储工作
- 信息整理:源数据海量非结构化(网页),要经过整理的过程输出封装成(索引文件)
- 搜索服务:应用系统,提供客户使用,调用索引文件的数据返回查询的结果
Lucene
- lucene是一个开源的全文检索引擎工具包.早期全文检索所有的具体逻辑原理是通用,但是代码,工具需要自定义开发.Doug Cutting(hadoop)创世.极大提升了全文检索技术开发效率
- 特点
①:稳定,创建索引性能高(150GB/小时)
②:lucene基于java的技术,栈内存要求小1MB
③:增量索引和批量索引速度一样快
④:索引文件索引数据结构20%
⑤:支持多种主流搜索功能:短语,词项,多域,布尔,模糊,通配查询