· 更多精彩内容,请下载阅读全本《Elastic Stack实战手册》
创作人:李增胜
Nested 是 Object 的专用版本,允许对象数组可以以彼此独立查询的方式进行索引。
Elasticsearch 中其实是没有内部对象的概念,因此它将对象层次结构,简化为字段名称和值,以列表的形式展现。
首先来比较 Nested 与 Join 以及 Object 的区别
对比结果 | Nested Object | Join | Object |
---|---|---|---|
优点 | 一对多关系存在一个文档中,查询速度较高 | 一对多关系存在多个文档中,父子文档更新性能高,可独立更新,互不影响 | 存储单个对象,性能高 |
缺点 | 无法单独更新父子文档,必须更新整个文档 | 维护关系需要占用更多内存,读取性能不高 | 当对象为数组时自动扁平化处理,无法满足多场景的查询条件,扩展性差 |
适用场景 | 查询性能高要求,子文档偶尔更新 | 子文档更新高频场景 | 对象非数组类型 |
小结:
Nested 类型使用场景:
- 含有 Object 数组。
- 需要对 Object 中的字段(至少两个及以上)同时进行查询,并维护这种关系。
Nested 类型允许相互独立地对对象数组进行索引和查询。如果需要维护数组中每个对象的关系,请使用 nested 数据类型。
以 B2B 电商行业的实际业务场景来举例说明,2B 行业的交易具有一定封闭性,只有签署合同、经常往来交易的会员,往往有更高资格的交易权、议价权。
定义商品索引,其中 groupPrice 标识分组价对象,对象里面包含了 boxLevelPrice 分组价格、level 分组级别。当前端业务线搜索时,传入用户所在组级别,即可查询对应的价格。
为了便于区分我们先定义为 Object 类型来观察下现象:
定义分组为 Object 类型
其中 groupPrice 为数组 Object 数据结构类型
PUT goods_info_object
{
"mappings": {
"properties": {
"goodsName": {
"type": "text",
"analyzer": "ik_smart"
},
"skuCode": {
"type": "keyword"
},
"brandName": {
"type": "keyword"
},
"shopCode": {
"type": "keyword"
},
"publicPrice": {
"type": "float"
},
"groupPrice": {
"properties": {
"boxLevelPrice": {
"type": "keyword"
},
"level": {
"type": "keyword"
}
}
}
}
}
}
#插入测试数据,为了便于阅读 JSON 格式进行了展开
POST goods_info_object/_bulk
{
"index": {
"_id": 1
}
}
{
"goodsName": "美国苹果",
"skuCode": "skuCode1",
"brandName": "美国苹果",
"shopCode": "sc00001",
"publicPrice": "8388.88",
"groupPrice": [
{
"boxLevelPrice": "4888.00",
"level": "A"
},
{
"boxLevelPrice": "6888.00",
"level": "B"
}
]
}
{
"index": {
"_id": 2
}
}
{
"goodsName": "山东苹果",
"skuCode": "skuCode2",
"brandName": "山东苹果",
"shopCode": "sc00001",
"publicPrice": "7388.88",
"groupPrice": [
{
"boxLevelPrice": "5888.00",
"level": "A"
},
{
"boxLevelPrice": "4888.00",
"level": "B"
}
]
}
#检索A组且价格等于4888.00的商品
POST goods_info_object/_search
{
"query": {
"bool": {
"must": [
{
"match": {
"groupPrice.level": "A"
}
},
{
"match": {
"groupPrice.boxLevelPrice": "4888.00"
}
}
]
}
}
}
#返回:
{
"took" : 1,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 2,
"relation" : "eq"
},
"max_score" : 0.45840856,
"hits" : [
{
"_index" : "goods_info_object",
"_type" : "_doc",
"_id" : "1",
"_score" : 0.45840856,
"_source" : {
"goodsName" : "美国苹果",
"skuCode" : "skuCode1",
"brandName" : "美国苹果",
"shopCode" : "sc00001",
"publicPrice" : "8388.88",
"groupPrice" : [
{
"boxLevelPrice" : "4888.00",
"level" : "A"
},
{
"boxLevelPrice" : "6888.00",
"level" : "B"
}
]
}
},
{
"_index" : "goods_info_object",
"_type" : "_doc",
"_id" : "2",
"_score" : 0.45840856,
"_source" : {
"goodsName" : "山东苹果",
"skuCode" : "skuCode2",
"brandName" : "山东苹果",
"shopCode" : "sc00001",
"publicPrice" : "7388.88",
"groupPrice" : [
{
"boxLevelPrice" : "5888.00",
"level" : "A"
},
{
"boxLevelPrice" : "4888.00",
"level" : "B"
}
]
}
}
]
}
}
我们查询的数据,要满足分组等级是 A 级且价格为 4888.00 的数据信息。
如下图所示,只有文档 1 是满足的,但是却查询到了 2 条,其中包括不符合条件的文档 2:
这是因为 Elasticsearch 中将 Object 数组打平了做存储导致,在 Elasticsearch 中,会将数据做如下存储:
{
"goodsName" : "山东苹果",
"skuCode" : "skuCode2",
"brandName" : "山东苹果",
"shopCode" : "sc00001",
"publicPrice" : "7388.88",
"groupPrice.boxLevelPrice" :["5888.00","4888.00"],
"groupPrice.level" :["A","B"]
}
查询恰好 boxLevelPrice 为"4888.00" 并且 level 为"A"的文档 2 是能被检索到的,当需要对数组中两个字段进行查询时,就需要用 Nested 数据结构类型来解决此问题。
定义分组为 Nested 数据结构类型
PUT goods_info_nested
{
"mappings": {
"properties": {
"goodsName": {
"type": "text",
"analyzer": "ik_smart"
},
"skuCode": {
"type": "keyword"
},
"brandName": {
"type": "keyword"
},
"shopCode": {
"type": "keyword"
},
"publicPrice": {
"type": "float"
},
"groupPrice": {
"type": "nested",
"properties": {
"boxLevelPrice": {
"type": "float"
},
"level": {
"type": "keyword"
}
}
}
}
}
}
#插入同样的测试数据
POST goods_info_nested/_bulk
{"index":{"_id":1}}
{"goodsName":"美国苹果","skuCode":"skuCode1","brandName":"美国苹果","shopCode":"sc00001","publicPrice":"8388.88","groupPrice":[{"boxLevelPrice":"4888.00","level":"A"},{"boxLevelPrice":"6888.00","level":"B"}]}
{"index":{"_id":2}}
{"goodsName":"山东苹果","skuCode":"skuCode2","brandName":"山东苹果","shopCode":"sc00001","publicPrice":"7388.88","groupPrice":[{"boxLevelPrice":"5888.00","level":"A"},{"boxLevelPrice":"4888.00","level":"B"}]}
#查询
POST goods_info_nested/_search
{
"query": {
"nested": {
"path": "groupPrice",
"query": {
"bool": {
"must": [
{
"match": {
"groupPrice.level": "A"
}
},
{
"match": {
"groupPrice.boxLevelPrice": "4888.00"
}
}
]
}
}
}
}
}
#返回:
"hits" : [
{
"_index" : "goods_info_nested",
"_type" : "_doc",
"_id" : "1",
"_score" : 1.3862942,
"_source" : {
"goodsName" : "美国苹果",
"skuCode" : "skuCode1",
"brandName" : "美国苹果",
"shopCode" : "sc00001",
"publicPrice" : "8388.88",
"groupPrice" : [
{
"boxLevelPrice" : "4888.00",
"level" : "A"
},
{
"boxLevelPrice" : "6888.00",
"level" : "B"
}
]
}
}
]
同样查询 groupPrice.boxLevelPrice 为"4888.00" 且 level 为"A"的数据,显然只有文档 1 满足,通过查询也验证了此结论,说明 Nested 查询生效,解决了嵌套查询的问题。
Nested 在 Aggregation 中的应用
在对 Nested Object 进行聚合操作时,我们需要使用到 Nested Aggregation,我们需要聚合查询最大的分组价格( groupPrice )。
POST /goods_info_nested/_search
{
"query": {
"match": {
"goodsName": "苹果"
}
},
"aggs": {
"groupPrice": {
"nested": {
"path": "groupPrice"
},
"aggs": {
"max_price": {
"max": {
"field": "groupPrice.boxLevelPrice"
}
}
}
}
}
}
#返回
{
.....
"aggregations" : {
"groupPrice" : {
"doc_count" : 4,
"max_price" : {
"value" : 6888.0
}
}
}
}