【阿里数据库面试题解】MySQL高可用原理

2022-02-22 19:18:17

若主备库机器的系统时间设置不一致，不会导致主备延迟的值不准吗？

不会的。因为，备库连接到主库时，会通过执行SELECT UNIX_TIMESTAMP()函数获得当前主库系统时间。若此时发现主库系统时间与自己不一致，备库在执行SBM计算时，会自动扣掉该差值。

在网络正常时，日志从主库传给备库所需时间很短，即t2-t1非常小。即网络正常情况下，主备延迟的主要来源是备库接收完binlog和执行完该事务之间的时间差。

所以主备延迟最直接的表现是，备库消费中转日志（relay log）的速度，比主库生产binlog的速度要慢。这可能是由哪些原因导致的呢？

主备延迟的来源

======================================================================

备库所在机器的性能 < 主库所在的机器性能

部署的人会想，反正备库没有请求，所以可以用差点儿的机器。或把20个主库放在4台机器，而把备库集中在一台机器。

但更新请求对IOPS的压力，在主库和备库上是无差别的。所以，做这种部署时，一般都会将备库设置为“非双1”模式。

但实际上，更新过程中也会触发大量读操作。所以，当备库主机上的多个备库都在争抢资源时，就可能导致主备延迟。

这种部署现在少了。因为主备可能发生切换，备库随时可能变成主库，所以主备库必须选用相同规格机器，并且做对称部署。

我们也做了对称部署，但还

【一线大厂Java面试题解析+后端开发学习笔记+最新架构讲解视频+实战项目源码讲义】

浏览器打开：qq.cn.hn/FTf 开源分享

有延迟，为啥？

很可能备库的压力大。主库既然提供了写能力，那么备库可以提供一些读能力。或一些运营后台需要的分析语句，不能影响正常业务，所以只能在备库上跑。

由于主库直接影响业务，大家使用起来会比较克制，反而忽视了备库的压力控制。结果备库上的查询耗费大量CPU，影响同步速度 =》主备延迟。

这时一般可以这么处理：

一主多从

除了备库外，可以多接几个从库，让这些从库来分担读压力。大多采用该方案，因为数据库系统必须保证有定期全量备份能力。而从库，很适合用来做备份。

通过binlog输出到外部系统

比如Hadoop，让外部系统提供统计类查询的能力。

从库和备库在概念上其实差不多。一般把会在HA过程中被选成新主库的，称为备库，其他的称为从库。

我们也采用了一主多从，保证备库压力不会超过主库，但还主备延迟，为啥？

可能就是大事务了。因为在主库，必须等事务执行完成才会写binlog，再传给备库。所以，若一个主库的语句执行10min，则该事务可能就会导致从库延迟10min。

delete一次性删除太多数据

比如，一些归档类数据，平时没有注意删除历史数据，等空间快满，SE要一次性删大量历史数据。又要避免在高峰期，所以会在晚上执行这些大量数据删除。

结果，DBA半夜收到延迟报警。然后，DBA要求你后续再删数据时，要控制每个事务删除的数据量，分成多次删除。

大表DDL

计划内的DDL，建议使用gh-ost方案

我们主库也没大事务，怎么还主备延迟？

可能因为备库的并行复制能力。

其他情况

TODO。

由于主备延迟的存在，所以在主备切换时，就有不同

策略

=================================================================

可靠性优先策略

比如一开始的双M架构，切换过程如下：

判断备库B现在的SBM，若小于某值（比如5s）继续下一步，否则持续重试该步
把主库A改成只读状态，即把readonly设置为true
判断备库B的SBM值，直到该值=0
把备库B改成可读写状态：把readonly 设置为false
把业务请求切到备库B

切换一般由HA系统完成。

MySQL可靠性优先主备切换流程

该切换流程中有不可用时间。因为在step2后，A、B都readonly，此时系统不可写，直到step5完成后才恢复。

在这个不可用过程，较耗时的是step3，可能耗费几s。这也是为什么要在step1先做判断，确保SBM足够小。

倘若一开始主备延迟就长如30min，而不先做判断直接切换，系统的不可用时间就会长达30min，一般业务都是不能接受的。

系统的不可用时间，是由该数据可靠性优先的策略决定的。也可选择可用性优先的策略，来把这个不可用时间几乎降为0。

可用性优先策略

如果我强行把步骤4、5调整到最开始执行，也就是说不等主备数据同步，直接把连接切到备库B，并且让备库B可以读写，那么系统几乎就没有不可用时间了。

我们把这个切换流程，暂时称作可用性优先流程。这个切换流程的代价，就是可能出现数据不一致的情况。

接下来，我就和你分享一个可用性优先流程产生数据不一致的例子。假设有一个表 t：

CREATE TABLE t (

id int(11) unsigned NOT NULL AUTO_INCREMENT,

c int(11) unsigned DEFAULT NULL,

PRIMARY KEY (id)

) ENGINE=InnoDB;

初始化数据后，主库和备库上都是3行数据。接下来，业务人员要继续在表t上执行两条插入语句的命令，依次是：

假设，现在主库上其他的数据表有大量更新，导致主备延迟达到5s。在插入一条c=4的语句后，发起了主备切换。

可用性优先策略，且binlog_format=mixed时的切换流程和数据结果。
step2：主库A执行完insert，插入了一行数据（4,4），之后开始进行主备切换
step3：由于主备之间5s延迟，所以备库B还没来得及应用“插入c=4”这个中转日志，就开始接收客户端“插入 c=5”的命令
step4：备库B插入数据（4,5），并把该binlog发给主库A
step5：备库B执行“插入c=4”这个中转日志，插入一行数据（5,4）。而直接在备库B执行的“插入c=5”这个语句，传到主库A，就插入一行新数据（5,5）。

最终，A、B上出现两行不一致数据，是由可用性优先流程导致。

若我还是想用可用性优先策略，但设置binlog_format=row，会咋样？

row格式在记录binlog时，会记录新插入的行的所有字段值，所以最后只会有一行不一致。而且两边主备同步的应用线程会报错duplicate key error并停止。即这种情况，B的(5,4)和A的(5,5)这两行数据，都不会被对方执行：

可用性优先策略，且binlog_format=row

码农公寓

我们也做了对称部署，但还

我们也采用了一主多从，保证备库压力不会超过主库，但还主备延迟，为啥？

delete一次性删除太多数据

大表DDL

相关文章