Elasticsearch系列(1):认识Elasticsearch

官方定义

  • Elasticsearch 是一个实时的分布式搜索分析引擎, 它能让你以一个之前从未有过的速度和规模,去探索你的数据。 它被用作全文检索、结构化搜索、分析以及这三个功能的组合。
  • Elasticsearch 也是使用 Java 编写的,它的内部使用 Lucene 做索引与搜索,但是它的目的是使全文检索变得简单, 通过隐藏 Lucene 的复杂性,取而代之的提供一套简单一致的 RESTful API。它可以被这样准备地形容:
  • 一个分布式的实时文档存储,每个字段 可以被索引与搜索
  • 一个分布式实时分析搜索引擎
  • 能胜任上百个服务节点的扩展,并支持 PB 级别的结构化或者非结构化数据
  • 使用案例

  • Wikipedia 使用 Elasticsearch 提供带有高亮片段的全文搜索,还有 search-as-you-type 和 did-you-mean 的建议。
  • 卫报 使用 Elasticsearch 将网络社交数据结合到访客日志中,实时的给它的编辑们提供公众对于新文章的反馈。
  • Stack Overflow 将地理位置查询融入全文检索中去,并且使用 more-like-this 接口去查找相关的问题与答案。
  • GitHub 使用 Elasticsearch 对1300亿行代码进行查询。
  • 整体架构

    如下图:

    Elasticsearch系列(1):认识Elasticsearch

    从以下架构图大概可以了解以下几点:

  • Elasticsearch底层是基于Lucene的。
  • 与用户交互是通过RESTful API来实现的。
  • 基本概念

    如下图:

    Elasticsearch系列(1):认识Elasticsearch

    1,Cluster(集群)与Node(节点)

    Cluster(集群):

    在一个分布式系统里面,可以通过多个elasticsearch运行实例组成一个集群,这个集群里面有一个节点叫做主节点(master),elasticsearch是去中心化的,所以这里的主节点是动态选举出来的,不存在单点故障。

    在同一个子网内,只需要在每个节点上设置相同的集群名,elasticsearch就会自动的把这些集群名相同的节点组成一个集群。节点和节点之间通讯以及节点之间的数据分配和平衡全部由elasticsearch自动管理。

    在外部看来elasticsearch就是一个整体。

    Node(节点):

    每一个运行实例称为一个节点,每一个运行实例既可以在同一机器上,也可以在不同的机器上。所谓运行实例,就是一个服务器进程,在测试环境中可以在一台服务器上运行多个服务器进程,在生产环境中建议每台服

    器运行一个服务器进程。

    2,Index(索引)

    类似于sql server中的数据库(database)。

    3,Type(类型)

    类似于sql server中的数据表(table),es可以在一个Index中建立多个Type,其中每个Type中的数据结构可以是不同的,然后通过mapping进行映射。

    4,Document(文档)

    类似于sql server中的行(row),es中存储的数据是文档型的, 一条数据对应一个文档即相当于sql server中的一行,一个document可以有多个字段。

    5,Field(字段)

    类似于sql server数据表中的列(column)。

    6,Mapping(映射)

    类似于sql server中的schema。

    7,Query DSL

    类似于sql server中的sql语句,只不过在es中使用JSON格式的查询语句,专业术语就叫:Query DSL

    8,PUT/POST/DELETE/GET

    RESTful API,分别对应新增,修改,删除和查询。

    上一篇:java反射 实例


    下一篇:YASM User Manual