Elasticsearch-基础介绍及索引原理分析
介绍
Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene(TM) 基础上的搜索引擎.当然 Elasticsearch 并不仅仅是 Lucene 那么简单,它不仅包括了全文搜索功能,还可以进行以下工作:
- 分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索。
- 实时分析的分布式搜索引擎。
- 可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。
基本概念
先说Elasticsearch的文件存储,Elasticsearch是面向文档型数据库,一条数据在这里就是一个文档,用JSON作为文档序列化的格式,比如下面这条用户数据:
{ "name" : "John", "sex" : "Male", "age" : 25, "birthDate": "1990/05/01", "about" : "I love to go rock climbing", "interests": [ "sports", "music" ] }
用Mysql这样的数据库存储就会容易想到建立一张User表,有balabala的字段等,在Elasticsearch里这就是一个文档,当然这个文档会属于一个User的类型,各种各样的类型存在于一个索引当中。这里有一份简易的将Elasticsearch和关系型数据术语对照表
关系数据库 ⇒ 数据库 ⇒ 表 ⇒ 行 ⇒ 列(Columns) Elasticsearch ⇒ 索引(Index) ⇒ 类型(type) ⇒ 文档(Docments) ⇒ 字段(Fields)
一个 Elasticsearch 集群可以包含多个索引(数据库),也就是说其中包含了很多类型(表)。这些类型中包含了很多的文档(行),然后每个文档中又包含了很多的字段(列)。Elasticsearch的交互,可以使用Java API,也可以直接使用HTTP的Restful API方式,比如我们打算插入一条记录,可以简单发送一个HTTP的请求:
PUT /megacorp/employee/1 { "name" : "John", "sex" : "Male", "age" : 25, "about" : "I love to go rock climbing", "interests": [ "sports", "music" ] }
更新,查询也是类似这样的操作,具体操作手册可以参见Elasticsearch权威指南
索引
Elasticsearch最关键的就是提供强大的索引能力了,其实InfoQ的这篇时间序列数据库的秘密(2)——索引写的非常好,我这里也是围绕这篇结合自己的理解进一步梳理下,也希望可以帮助大家更好的理解这篇文章。
Elasticsearch索引的精髓:
一切设计都是为了提高搜索的性能
另一层意思:为了提高搜索的性能,难免会牺牲某些其他方面,比如插入/更新,否则其他数据库不用混了。前面看到往Elasticsearch里插入一条记录,其实就是直接PUT一个json的对象,这个对象有多个fields,比如上面例子中的name, sex, age, about, interests,那么在插入这些数据到Elasticsearch的同时,Elasticsearch还默默1的为这些字段建立索引--倒排索引,因为Elasticsearch最核心功能是搜索。
Elasticsearch是如何做到快速索引的
InfoQ那篇文章里说Elasticsearch使用的倒排索引比关系型数据库的B-Tree索引快,为什么呢?
什么是B-Tree索引?
上大学读书时老师教过我们,二叉树查找效率是logN,同时插入新的节点不必移动全部节点,所以用树型结构存储索引,能同时兼顾插入和查询的性能。因此在这个基础上,再结合磁盘的读取特性(顺序读/随机读),传统关系型数据库采用了B-Tree/B+Tree这样的数据结构:
:
为了提高查询的效率,减少磁盘寻道次数,将多个值作为一个数组通过连续区间存放,一次寻道读取多个数据,同时也降低树的高度。
什么是倒排索引?
继续上面的例子,假设有这么几条数据(为了简单,去掉about, interests这两个field):
| ID | Name | Age | Sex | | -- |:------------:| -----:| -----:| | 1 | Kate | 24 | Female | 2 | John | 24 | Male | 3 | Bill | 29 | Male
ID是Elasticsearch自建的文档id,那么Elasticsearch建立的索引如下:
Name:
| Term | Posting List | | -- |:----:| | Kate | 1 | | John | 2 | | Bill | 3 |
Age:
| Term | Posting List | | -- |:----:| | 24 | [1,2] | | 29 | 3 |
Sex:
| Term | Posting List | | -- |:----:| | Female | 1 | | Male | [2,3] |
Posting List
Elasticsearch分别为每个field都建立了一个倒排索引,Kate, John, 24, Female这些叫term,而[1,2]就是Posting List。Posting list就是一个int的数组,存储了所有符合某个term的文档id。
看到这里,不要认为就结束了,精彩的部分才刚开始...
通过posting list这种索引方式似乎可以很快进行查找,比如要找age=24的同学,爱回答问题的小明马上就举手回答:我知道,id是1,2的同学。但是,如果这里有上千万的记录呢?如果是想通过name来查找呢?
Term Dictionary
Elasticsearch为了能快速找到某个term,将所有的term排个序,二分法查找term,logN的查找效率,就像通过字典查找一样,这就是Term Dictionary。现在再看起来,似乎和传统数据库通过B-Tree的方式类似啊,为什么说比B-Tree的查询快呢?
Term Index
B-Tree通过减少磁盘寻道次数来提高查询性能,Elasticsearch也是采用同样的思路,直接通过内存查找term,不读磁盘,但是如果term太多,term dictionary也会很大,放内存不现实,于是有了Term Index,就像字典里的索引页一样,A开头的有哪些term,分别在哪页,可以理解term index是一颗树:
这棵树不会包含所有的term,它包含的是term的一些前缀。通过term index可以快速地定位到term dictionary的某个offset,然后从这个位置再往后顺序查找。
所以term index不需要存下所有的term,而仅仅是他们的一些前缀与Term Dictionary的block之间的映射关系,再结合FST(Finite State Transducers)的压缩技术,可以使term index缓存到内存中。从term index查到对应的term dictionary的block位置之后,再去磁盘上找term,大大减少了磁盘随机读的次数。
这时候爱提问的小明又举手了:"那个FST是神马东东啊?"
一看就知道小明是一个上大学读书的时候跟我一样不认真听课的孩子,数据结构老师一定讲过什么是FST。但没办法,我也忘了,这里再补下课:
FSTs are finite-state machines that map a term (byte sequence) to an arbitrary output.
假设我们现在要将mop, moth, pop, star, stop and top(term index里的term前缀)映射到序号:0,1,2,3,4,5(term dictionary的block位置)。最简单的做法就是定义个Map<string, integer="">,大家找到自己的位置对应入座就好了,但从内存占用少的角度想想,有没有更优的办法呢?答案就是:FST(理论依据在此,但我相信99%的人不会认真看完的)
⭕️表示一种状态
-->表示状态的变化过程,上面的字母/数字表示状态变化和权重
将单词分成单个字母通过⭕️和-->表示出来,0权重不显示。如果⭕️后面出现分支,就标记权重,最后整条路径上的权重加起来就是这个单词对应的序号。
FSTs are finite-state machines that map a term (byte sequence) to an arbitrary output.
FST以字节的方式存储所有的term,这种压缩方式可以有效的缩减存储空间,使得term index足以放进内存,但这种方式也会导致查找时需要更多的CPU资源。
后面的更精彩,看累了的同学可以喝杯咖啡……
压缩技巧
Elasticsearch里除了上面说到用FST压缩term index外,对posting list也有压缩技巧。
小明喝完咖啡又举手了:"posting list不是已经只存储文档id了吗?还需要压缩?"
嗯,我们再看回最开始的例子,如果Elasticsearch需要对同学的性别进行索引(这时传统关系型数据库已经哭晕在厕所……),会怎样?如果有上千万个同学,而世界上只有男/女这样两个性别,每个posting list都会有至少百万个文档id。 Elasticsearch是如何有效的对这些文档id压缩的呢?
Frame Of Reference
增量编码压缩,将大数变小数,按字节存储
elasticsearch安装使用
官方:https://elasticsearch.cn/
es单机部署:
Elasticsearch: 搜索数据库服务器,提供RESTful Web接口。简称ES
Centos7阿里yum源 curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo curl -o /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-7.repo Java环境安装:Jdk1.8 yum install lrzsz vim -y yum install java-1.8.0-openjdk java-1.8.0-openjdk-devel -y java -version elk下载准备,版本采用7.6.2 https://www.elastic.co/cn/downloads/elasticsearch 采用rpm安装的方式 注意事项 所有服务器基础环境都是这样装的 yum源、java环境,后面每台服务器都需要安装基础环境基础环境安装
ES 搜索数据库服务器,提供RESTful Web接口 ES的安装:yum -y localinstall elasticsearch-7.6.2-x86_64.rpm JVM的内存限制更改/etc/elasticsearch/jvm.options,根据服务器内存情况来改 -Xms200M -Xmx200M ES单实例配置/etc/elasticsearch/elasticsearch.yml,single-node代表单机运行 path.data: /var/lib/elasticsearch path.logs: /var/log/elasticsearch network.host: 0.0.0.0 http.port: 9200 xpack.security.enabled: true discovery.type: single-CU 启动ES systemctl enable elasticsearch systemctl restart elasticsearch 观察日志,检查端口 ES启动后第一步需要设置密码sjgpwd,采用自己设置密码 ES自己设置密码/usr/share/elasticsearch/bin/elasticsearch-setup-passwords interactive ES设置随机密码/usr/share/elasticsearch/bin/elasticsearch-setup-passwords autoES单机版安装部署
#注:es7.0以上会强制要求证书验证提高安全性,es传输端口默认9200,es节点直接接口9300.
验证es:
验证启动是否成功 curl -u elastic:sjgpwd http://172.17.166.217:9200 #rest es http://xxx:9200/_cat/nodes?v #查看es节点详细信息 http://xxx:9200/_cat/indices?v #查看当前存在节点 curl -u elastic:sjgpwd -X POST http://192.168.237.50:9200/sjg/_doc -H 'Content-Type: application/json' -d '{"name": "sjg", "age": 30}' #插入一个索引及数据 http://xxx:9200/sjg/_search?q=* #查看索引下详细数据es验证
es集群部署:
ES加密集群部署 ES集群的安装同单机,集群只是配置不同 安装jdk环境 安装ES JVM的内存限制更改/etc/elasticsearch/jvm.options,根据服务器内存情况来改 -Xms200M -Xmx200M ES分布式集群 索引的分片可以把数据分配到不同节点上 每个分片可设置0或多个副本。功能:备份、提高查询效率 与集群中任何一个节点的通信结果都是一致的 ES加密集群 集群交互使用证书加密交互 用户访问使用用户名密码 ES集群交互证书创建 /usr/share/elasticsearch/bin/elasticsearch-certutil ca /usr/share/elasticsearch/bin/elasticsearch-certutil cert --ca /usr/share/elasticsearch/elastic-stack-ca.p12 cp /usr/share/elasticsearch/elastic-certificates.p12 /etc/elasticsearch/elastic-certificates.p12 交互证书注意 需要拷贝到每台ES服务器上 需要更改权限chown elasticsearch:elasticsearch /etc/elasticsearch/elastic-certificates.p12 ES集群配置/etc/elasticsearch/elasticsearch.yml cluster.name: sjg node.name: node1 node.master: true node.data: true path.data: /var/lib/elasticsearch path.logs: /var/log/elasticsearch network.host: 0.0.0.0 http.port: 9200 discovery.seed_hosts: ["192.168.237.50", "192.168.237.51"] cluster.initial_master_nodes: ["192.168.237.50", "192.168.237.51"] xpack.security.enabled: true xpack.monitoring.enabled: true xpack.security.transport.ssl.enabled: true xpack.security.transport.ssl.verification_mode: certificate xpack.security.transport.ssl.keystore.path: /etc/elasticsearch/elastic-certificates.p12 xpack.security.transport.ssl.truststore.path: /etc/elasticsearch/elastic-certificates.p12 启动ES systemctl enable elasticsearch systemctl restart elasticsearch 观察日志,检查端口 ES集群启动后第一步需要设置密码sjgpwd ES自己设置密码/usr/share/elasticsearch/bin/elasticsearch-setup-passwords interactive ES设置随机密码/usr/share/elasticsearch/bin/elasticsearch-setup-passwords auto 验证集群是否成功,标记为*的为master节点 http://xxx:9200 http://xxx:9200/_cat/nodes?v http://xxx:9200/_cat/indices?v 与任何一个节点的通信是等价的 http://xxx:9200/_cat/nodes?v http://xxx:9200/sjg/_search?q=* 单机切成集群 单机的数据是否有帮我们保存? ES集群安全交互抓包验证 安装抓包命令 分别抓包查看 ngrep -d ens33 port 9200明文交互的(需用户名密码) ngrep -d ens33 port 9300安全交互的集群部署
ES数据库的基础操作:
ES概念,不用显式去创建 索引:类似数据库。索引在写入数据时会自动创建,可按天 文档:类似表数据。存储在ES里的数据 ES基础数据操作 curl操作:会比较麻烦,先使用这种方式 Kibana操作ES: 提供简化的工具 写入数据 curl -u elastic:sjgpwd -X PUT http://xxx:9200/sjg/_doc/1 -H 'Content-Type: application/json' -d '{"name": "sjg", "age": 30}' curl -u elastic:sjgpwd http://xxx:9200/sjg/_doc/1 | python -m json.tool curl -u elastic:sjgpwd http://xxx:9200/sjg/_search?q=* | python -m json.tool 写入数据随机ID curl -u elastic:sjgpwd -X POST http://xxx:9200/sjg/_doc -H 'Content-Type: application/json' -d '{"name": "sjgram", "age": 29}' 更新数据 curl -u elastic:sjgpwd -X POST http://xxx:9200/sjg/_update/1 -H 'Content-Type: application/json' -d '{"doc": {"age": 28}}' 删除数据 curl -u elastic:1.Q1.Q1.Q -X DELETE http://172.17.166.217:9200/test/_doc/l1GxzXoBgELQUp2mC3Ox curl -u elastic:sjgpwd -X DELETE http://xxx:9200/sjg 删除整个索引 与任何一个节点的通信是等价的 curl -u elastic:sjgpwd -X POST http://xxx:9200/sjg/_doc -H 'Content-Type: application/json' -d '{"name": "sjgram", "age": 29}' http://xxx1:9200/sjg/_search?q=* http://xxx2:9200/sjg/_search?q=*
###put与post区别 put常常用来创建数据,put后边会覆盖前边内容。post用来更新数据。