elastic使用lucene建立索引的步骤中,需要文件系统缓存需要同步到磁盘上。(多个segment->commit文件来维护)
当建立历史数据时,并不要求太高的实时性时,可以减小(默认1s)自动刷新时间。
curl -XPOST http://127.0.0.1:9300/logstash-2016.12.19/_settings -d '{"refresh_interval":"10s"}'
如需关闭
curl -XPOST http://127.0.0.1:9300/logstash-2016.12.19/_settings -d '{"refresh_interval":"-1"}'
translog保证索引的一致性。elastic中的update,insert等写操作完成,一定会触发translog到磁盘上,然后再返回200。这个过程会损失一点性能。
如果不考虑这些,希望性能优先,可以在index template中设置 index.translog.durability:async
lucene的思路就是开新文件。默认1s就有一个文件产生。ES会不断在后台merge segment。
并不是所有大小的segment都会被merge,考虑性能的问题,大于5G的segment不会被merge。一般采用的策略是负载较低的时候通过forcemerge接口归并。
curl -XPOST http://127.0.0.1:9300/logstash-2016.12.19/_forcemerge?max_num_segments=1
_forcemerge对资源消耗比一般的多。
route和replica的过程:
每条数据都有一个routing值,默认是_id。
shard = hash(routing)% number_of_primary_shards
这个运算决定了数据被分配到的分片。一般分片数不能随意改,不然会导致路由不对。
5节点集群。副本1个,索引主分片10。每个节点分配4个分片。但配置的时候要多一点,因为机器可能出故障。
elasticsearch crud:
create: curl -XPOST http://127.0.0.1:9200/logstash-2015.06.10/testlog -d '{name:"test", age:11}' 返回值会带_id假设为_id1
read: curl -XGET http://127.0.0.1:9200/logstash-2015.06.10/testlog/_id1
delete: curl -XDELETE http://127.0.0.1:9200/logstash-2015.06.10/testlog/_id1 支持通配符
update: curl -XPOST http://127.0.0.1:9200/logstash-2015.06.10/testlog/_id1 -d '{name:"test", age:11}'
或者 curl -XPOST http://127.0.0.1:9200/logstash-2015.06.10/testlog/_id1/_update -d '{doc: { "name": "test1"} }'
或者 curl -XPOST http://127.0.0.1:9200/logstash-2015.06.10/testlog/_id1/_update -d '{script: "ctx._source.name = \"test1\"" }'
search:
curl -XGET http://127.0.0.1:9200/logstash-2015.06.10/testlog/_search?q=name:"test"
NOT AND OR组合搜索 必须大写
比如user:("test1" OR "test2") AND NOT mesg:first;
_exits_要求存在 _missing_:user 要求不存在
聚合:1.0之前叫做facet,1.0之后叫做aggregation