Elasticsearch 使用的总结与注意

Elasticsearch 版本:6.8.8

文章参考如下链接,但有些内容可能过时,以实践结果为主:

https://www.elastic.co/guide/cn/elasticsearch/guide/current/index.html

Index API

创建 index
PUT http://localhost:9200/twitter

PUT http://localhost:9200/twitter/tweet/1

自动索引创建
如果索引不存在,会自动创建,并使用一些默认的索引模板

Get API

GET http://localhost:9200/twitter/tweet/1

Delete API

DELETE http://localhost:9200/twitter/tweet/1

Delete By Query API

POST http://localhost:9200/twitter/_delete_by_query

{
  "query": { 
    "match": {
      "message": "some message"
    }
  }
}

查询在传值的时候必须用 query 作为 key

Search APIs

所有的搜索 API 可以在一个 index 中跨越多个 type 进行使用,也可跨越多个索引。

例如,我们可以在 twitter 索引上跨越所有 type 搜索所有 document:
GET /twitter/_search?q=user:kimchy

我们也可以指定多个类型:
GET /twitter/tweet,user/_search?q=user:kimchy

跨越多个 index 搜索指定 type,指定标签:
GET /kimchy,elasticsearch/tweet/_search?q=tag:wow

搜索所有 index 指定 type,用 _all 代表所有 index
GET /_all/tweet/_search?q=tag:wow

搜索所有 index 所有 type
GET /_search?q=tag:wow

Query String 语法
查询字符串被解析为一系列 term 和 operator。一个 term 可以是一个单词 —— quick 或者 brown;或者是一个短语,被双引号包裹 —— “quick brown”,以相同的顺序搜索短语中的所有单词。

Field names

status 包含 active

status:active

title 包含 quick 或者 brown。如果你省略 OR,使用默认的操作符

title:(quick OR brown)
title:(quick brown)

author 包含 “john smith”

author:"John Smith"

任意字段 book.title, book.content 或者 book.date 类似,包含 quick 或者 brown

book.\*:(quick brown)

字段 title 有非空值

_exists_:title

通配符

通配符搜索可以在单个 term 上运行,使用 ? 代表一个单个字符,使用 * 代表 0 个或多个字符:

qu?ck bro*

但是注意,通配符查询会使用大量内存,并且表现糟糕,

注意:单纯的通配符 * 为了提高效率,会被重写为 exists 查询。因此,通配符 "field:*" 将会匹配下面有空值的 document:

{
	"field": ""
}

并且如果字段不存在或者设置为 null,将不会被匹配:

{
	"field": ""
}

正则表达式

通过包裹斜杠("/")可以将正则表达式嵌入查询字符串中:

name:/joh?n(ath[oa]n)/

模糊查询

使用模糊运算符来搜索相似的 term:

quikc~ brwn~ foks~

使用 Damerau-Levenshtein 距离来查找最多两个更改,其中的更改时单个字符的插入,删除或者替换,或者相邻字符的换位

默认的编辑距离是 2,但编辑距离为 1 应足以捕获所有人类拼写错误的 80%。它可以指定为:

quikc~1

范围查询

范围可以是日期,数字或者字符串。左右闭区间使用方括号 [min TO max] 左右开区间使用花括号 {min TO max}

  • 2012 所有的天
date:[2012-01-01 TO 2012-12-31]
  • 数字 1-5
count:[1 TO 5]
  • 标签在 alpha 和 omega 之间,不包括 alpha 和 omega
tag:{alpha TO omega}
  • 数字 10 以上
count:[10 TO *]
  • 2012 年之前
date:{* TO 2012-01-01}

方括号和花括号也可以组合

  • 数字1 到 5,但不包括 5
count:[1 TO 5}

有一侧*可以使用以下语法:

age:>10
age:>=10
age:<10
age:<=10

Boolean 运算符

默认,所有 term 都是可选的,只要一个 term 匹配即可。搜索 foo bar baz 将会找到所有包含一个或多个 foo 或 bar 或 baz 的文件。
首选运算符 + (该 term 必须出现)和 - (该 term 禁止出现)。所有其他术语都是可选。例如:

quick brown +fox -news
  • fox 必须出现
  • news 禁止出现
  • quick 和 brown 是可选的
上一篇:分布式自增长ID(推特Twitter的Snowflake雪花算法)


下一篇:Twitter教程:如何下载Twitter数据副本?