Auth: Jin
Date: 20140414
1.master-slave同步问题
1)故障描述和错误代码:
监控报警slave故障
登录slave服务器查看
mysql>
show slave
status\G
发现有Errno
详细的记录在另外电脑,电脑硬盘坏了,没有具体的报错了
2)排查步骤:
(1)查看错误日志
tail
-n 100 /var/log/mysql/mysql_7.error
没有发现问题
cat /mysql/data7/master.info
18
mysql-bin.000106
847011590
查看master信息
# cat
/mysql/data7/relay-log.info
binlogs/mysql-relay-bin.000022
846786796
mysql-bin.000106
846786650
8
从master读取到slave的信息
ll
/mysql/data7/binlogs/
total 826996
-rw-rw----. 1 mysql mysql 199 Apr
8 17:39 mysql-relay-bin.000021
-rw-rw----. 1 mysql mysql 846828651 Apr 14
14:31 mysql-relay-bin.000022
-rw-rw----. 1 mysql mysql 62 Apr 8 17:39
mysql-relay-bin.index
tail -f /mysql/data7/binlogs/mysql-relay-bin.000022
都正常
初步判断IO线程正常
(2)仔细看slave status
mysql> show slave
status\G
可以看到IO线程是正常的,SQL线程有问题
3)解决办法
重新按最后的position重新同步
4)总结:
(1)需要熟悉repliction的原理
(2)一般情况之需要看slave的status即可,info文件信息都读取进status了,根据status判断是IO的问题,还是SQL的问题
2,master当机,无法自动恢复问题
1)故障秒素和错误代码
监控报警master服务器宕了
登录mmm_control查看,发现writer切换到backup
master上去了。原来的master处于正在恢复总
2)排查步骤
查看master服务-正常
slave
status也OK,没有找到自动切换的原因
后查资料说一个bug,把检测时间修改为了10可避免,我设置的是60
3)解决办法
(1)手动把“出故障的”master为online
(2)将writer角色mv给master