slave 延迟案例处理

2022-01-10 22:02:03

先说下大体架构： Master下面挂着3个slave，读写分离，3个slave是一个读集群（版本均为Percona 5.1）

故障现象：其中一台机器（暂且称之为C）slave延迟偶尔瞬间为22秒！

可能的情况是：

1、瞬间可能有大量的更新；

2、有些SQL语句耗费太多资源；

3、大事务在执行（大事务：一个事务里面包含过多语句逻辑）

4、磁盘问题

5、系统其他问题

从zabbix监控中，innodb_rows_operate显示中无异常现象，排除1；

从slave的slow_query_log 中，发现部分定时任务的SQL，但与slave并无直接关系（时间点对不上），追踪2；

通过解析binlog，并未发现“大事务”的存在，排除3；

磁盘状态稳定，排除4；

在无直接线索的情况下，只有机器C有延迟状态，对比其他两台机器（暂且成为A，B），发现只有Server C的时间不对（差将近一分钟），貌似已经找到答案；（操作系统规范执行的不彻底啊，该反思），

slave_behiend_master 是由于主从机器时间不对导致的，具体原因，可以参考下官方文档！

本文转自位鹏飞 51CTO博客，原文链接：http://blog.51cto.com/weipengfei/1359639，如需转载请自行联系原作者

码农公寓