1、汇总
1.1、概述
信息: 版本2.1.0 master版本,tidb实例3个,tikv机器4台(实例14个)
问题:线上某tidb集群的tikv机器宕机后,QPS表现直接至0,且恢复时间较长,几十分钟级别,且需要宕机的机器起来后,才能快速恢复业务
处理:升级, 2.1.0 master 版本 至 3.0.2 版本
测试: 进行TiKV宕机测试(上面包含4个tikv实例)
1.2、测试汇总
此处:感谢官方支持升级~
2、具体
2.1、拓扑
3个tidb上层是 DNS 与TGW,流量被负载至3个tidb实例
tikv机器,单机4个tikv实例
2.2、集群信息
数据量:9T
regions:14w
郑州不孕不育医院:http://jbk.39.net/yiyuanzaixian/zztjyy/
2.3、宕机
关闭某tikv机器,上面有4个tikv实例
2.4、监控情况
可以从监控看出:QPS有短暂的下降, 1500左右下降至 1000左右,大约影响时间 30s内
再次开启后,QPS有下降, 1500下降至 1000左右,大约影响时间 1分半钟左右
2.5、业务反馈
业务反映:没有发现业务异常与报错