elasticsearch系列（一）术语

2022-07-09 12:08:07

elasticsearch（以下简称es）是一款开源的搜索引擎，基于apach lucene。最近在做nlp的时候顺便研究一下。

下面是官方列举的术语解释

Near Realtime

接近实时的查询，通常情况下，延迟在1s以内

一个集群由1个或者多个节点组成，这些节点提供整个数据和索引，性能来源于每个节点。一个集群有一个唯一的名字，默认为“elasticsearch”，

一个node启动的时候分配一个唯一的id（UUID），自动会加入名为“elasticsearch”的cluster，前提是网络没有问题，一个node只能加入一个集群。

一个index是一些有相似特征的documents集合，比如有一个顾客类的index，一个生产类的index，有一个订单类的index。index必须都是小写的

一个index可以定义出多个type，一个type是一个逻辑的类别或者分区，并且其语义完全取决于自己，一般而言一个type定义了包含多个fields的documents。

一个document是可以被索引信息的基础单元，尽管一个document在物理上是属于index的，但事实上，一个document必须被索引或者分配到一个index里的type。

一个index可以存储大量的数据，并且超过单节点的限制。例如，单个index可能含有几十亿个documents，占据了1TB的磁盘空间，这就可能导致单个node可能没有这么大的空间，或者在查询的时候会很慢。

为了解决这个问题，es给出了shard的概念，将一个index拆分成多个部分。创建的index就可以申明shard的数量，每个shard都是拥有完整和独立的index。

Sharding的两个重要点：

1.shard允许你对大量数据做横向切分

2.shard允许通过多个shards分布式并发的操作，从而提升性能和吞吐量

Shard是如何分布的以及多个它们的documents是如何被合并都由es管理，这些对使用者都是透明的。

关于容错，es通过replica来解决，replica是index下的shard的副本。

Replicaing的两个重要点：

1.提供了HA。需要提醒的是，replica和shard不应该在同一个node

2.搜索可以在所有的replica并发处理

你可以在创建的时候设置index的shard和replica数量，但是之后，你只能更改replica的数量，而不能更改shard的数量.

Es的默认配置为，5个shards和1个replica，如果你的cluster有两个及以上的node，则一共有10个shards（5 primary shards,5 replica shards）

Es的一个shard就是lucene的index

逻辑上，index、type、documents作为namespace的存在，可以充分表现Restful风格的接口

物理上，index可以看做是数据库中的库，通过shard（类似partition）做HA和高并发

//es官方介绍