上两章笔记分享了redis高性能和redis持久化相关的笔记, 本文笔者将继续介绍redis高可靠相关内容, 如有不足指出欢迎留言指正.
本文还是采用AQ方式记录, 废话不多说, 开始上菜.
Q: 文章的标题为redis高可靠性, 那Redis 具有高可靠性具体是什么意思?
A : 高可靠至少有两层含义:
- 数据尽量少丢失;
- 服务尽量少断;
上一章提到了AOF和RDB的持久化方式保证了前者; 对于后者redis的做法是增加冗余的副本; 将一份数据同时保存在多个实例上。即使有一个实例出现了故障,需要过一段时间才能恢复,其他实例也可以对外提供服务,不会影响业务使用。
redis提供了主从库模式,以保证数据副本的一致,主从库之间采用的是读写分离的方式。
- 读操作: 主库、从库都可以接收;
- 写操作: 首先执行到主库, 然后主库将数据同步到从库;
Q: redis为什么要采用主从模式?
A: 其实这个问题不仅仅是redis的问题, 很多大型互联网公司都会采用主从模式, 甚至是异地多活, 这里除了考虑单机性能瓶外, 更多的会考虑到容灾机制, 这个说来话长, 后面可以单独分享.
言归正传, 从redis单机性能出发:
- redis单机性能存在瓶颈, 读qps大约在11w/s, 写大约在8w/s, 对于像双十大促场景肯定是扛不住的;
- redis单机存储数据能力是有限的.
Q: 主从库关系如何建立?
A : 当启动多个实例时, 在所有的从库中执行replicaof命令, 命令格式如下:
replicaof 主库ip 主库对应端口号
通过replicaof命令即可建立主库和从库之间关系;
Q: redis主从模式如何保证数据的一致性?
A : 首先, redis第一次主从同步时采用RDB全量复制的方式, 后面将采用增量方式;
Q: 主从库间如何进行第一次同步?
A : 首先上图, 图片转载至极客时间redis篇
主从数据同步主要分为3阶段:
第一阶段
从库执行
replicaof 172.16.19.3 6379
命令后向主库发送建立连接请求
psync ? -1
命令分为3个部分,
- 第一部分为psync表示请求数据同步;
- “? ”表示主库的runId, 由于第一次并不知道主库runId, 因此用“?”表示, 第三个表示偏移量offset;
- “-1” 表示第一次复制.
主库收到 psync 命令后,会用FULLRESYNC响应命令带上两个参数:主库 runID 和主库目前的复制进度 offset,返回给从库。从库收到响应后,会记录下这两个参数。
- FULLRESYNC命令表示全量复制, 主库会当前所有的数据复制给从库;
第二阶段
主库将所有数据同步给从库。从库收到数据后,在本地完成数据加载。这个过程依赖于内存快照生成的 RDB 文件。
主库执行bgsave命名, 生成RDB文件, 接着将文件发给从库. 从库接收到 RDB 文件后,会先清空当前数据库,然后加载 RDB 文件。这是因为从库在通过 replicaof 命令开始和主库同步前,可能保存了其他数据。为了避免之前数据的影响,从库需要先把当前数据库清空。
第三阶段
主库与从库进行数据进行同步时, 会有新的请求过来修改主库当前的数据, 此时主库并不会阻塞, 依然可以接受访问, 但是新的请求不会记录在刚才生成的RDB文件中, 此时主从的数据就会不一致. 为了保证主从库的数据一致性,主库会在内存中用专门的 replication buffer,记录 RDB 文件生成后收到的所有写操作。
第三个阶段,主库会把第二阶段执行过程中新收到的写命令,再发送给从库。具体的操作是,当主库完成 RDB 文件发送后,就会把此时 replication buffer 中的修改操作发给从库,从库再重新执行这些操作。这样一来,主从库就实现同步了。
建立连接后, 为了避免网络连接开销,由于主库和从库间采用的是长连接, 之后主库每次写操作都会同步给从库, 这样主从的数据就可以保持基本一致了;
Q: 笔者, 小菜有一个问题, 主库和每一个从库间第一次建立联系时, 都需要进行全量复制, 对于主库来说, 生成 RDB 文件和传输 RDB 文件, 都是耗时的操作, 如果从库的数量很多, 就会导致主库忙于 fork 子进程生成 RDB 文件,进行数据全量同步。fork 这个操作会阻塞主线程处理正常请求,从而导致主库响应应用程序的请求速度变慢。传输 RDB 文件也会占用主库的网络带宽,同样会给主库的资源使用带来压力。有没有什么方法可以分担主库的压力呢?
A: 其实是有的, “主 - 从 - 从” 模式; 刚才介绍的主从库模式中,所有的从库都是和主库连接,所有的全量复制也都是和主库进行的。现在,可以通过“主 - 从 - 从”模式将主库生成 RDB 和传输 RDB 的压力,以级联的方式分散到从库上。 具体部署如图:
这样一来,这些从库就会知道,在进行同步时,不用再和主库进行交互了,只要和级联的从库进行写操作同步就行了,这就可以减轻主库上的压力.
小结:
一旦主从库完成了全量复制,它们之间就会一直维护一个网络连接,主库会通过这个连接将后续陆续收到的命令操作再同步给从库,这个过程也称为基于长连接的命令传播,可以避免频繁建立连接的开销。
Q: 笔者, 小菜觉得长连接的命令传播方式确实很赞, 但是如果主从库之间断网了, 怎么办呢?
A: 在 Redis 2.8 之前,如果主从库在命令传播时出现了网络闪断,那么,从库就会和主库重新进行一次全量复制,开销非常大。
从 Redis 2.8 开始,网络断了之后,主从库会采用增量复制的方式继续同步。听名字大概就可以猜到它和全量复制的不同:全量复制是同步所有数据,而增量复制只会把主从库网络断连期间主库收到的命令,同步给从库。
Q: 笔者, 增量复制时, 主从库之间具体是怎么保持同步的呢?
A: 主库会把断连期间收到的写操作命令,写入 replication buffer,同时也会把这些操作命令也写入 repl_backlog_buffer 这个缓冲区。
repl_backlog_buffer 是一个环形缓冲区,主库会记录自己写到的位置,从库则会记录自己已经读到的位置。
主库和从库的写读位置在一起,这算是它们的起始位置。随着主库不断接收新的写操作,它在缓冲区中的写位置会逐步偏离起始位置,我们通常用偏移量来衡量这个偏移距离的大小,对主库来说,对应的偏移量就是 master_repl_offset。主库接收的新写操作越多,这个值就会越大。
同样,从库在复制完写操作命令后,它在缓冲区中的读位置也开始逐步偏移刚才的起始位置,此时,从库已复制的偏移量 slave_repl_offset 也在不断增加。正常情况下,这两个偏移量基本相等。
主从库的连接恢复之后,从库首先会给主库发送 psync 命令,并把自己当前的 slave_repl_offset 发给主库,主库会判断自己的 master_repl_offset 和 slave_repl_offset 之间的差距。
在网络断连阶段,主库可能会收到新的写操作命令,所以,一般来说,master_repl_offset 会大于 slave_repl_offset。此时,主库只用把 master_repl_offset 和 slave_repl_offset 之间的命令操作同步给从库就行。
具体如下图:
为了更清楚理解网络正常连接数据同步以及网络断链后增量数据同步, 下面首先说一下, redis内部存在的两个缓存机制:
repl_backlog_buffer和replication buffer
-
repl_backlog_buffer: 一个环形缓冲区, 只要有从库存在,这个repl_backlog_buffer就会存在。主库的所有写命令除了传播给从库之外,都会在这个repl_backlog_buffer中记录一份,缓存起来,只有预先缓存了这些命令,当从库断连后,从库重新发送psync $master_runid o f f s e t , 主 库 才 能 通 过 offset,主库才能通过 offset,主库才能通过offset在repl_backlog_buffer中找到从库断开的位置,只发送$offset之后的增量数据给从库即可。repl_backlog_buffer是为了从库断开之后,如何找到主从差异数据而设计的环形缓冲区,从而避免全量同步带来的性能开销。如果从库断开时间太久,repl_backlog_buffer环形缓冲区被主库的写命令覆盖了,那么从库连上主库后只能乖乖地进行一次全量同步,所以repl_backlog_buffer配置尽量大一些,可以降低主从断开后全量同步的概率。而在repl_backlog_buffer中找主从差异的数据后,如何发给从库呢?这就用到了replication buffer。
-
replication buffer:Redis和客户端通信也好,和从库通信也好,Redis都需要给分配一个内存buffer进行数据交互,客户端是一个client,从库也是一个client,我们每个client连上Redis后,Redis都会分配一个client buffer,所有数据交互都是通过这个buffer进行的:Redis先把数据写到这个buffer中,然后再把buffer中的数据发到client socket中再通过网络发送出去,这样就完成了数据交互。所以主从在增量同步时,从库作为一个client,也会分配一个buffer,只不过这个buffer专门用来传播用户的写命令到从库,保证主从数据一致,我们通常把它叫做replication buffer。
-
再延伸一下,既然有这个内存buffer存在,那么这个buffer有没有限制呢?如果主从在传播命令时,因为某些原因从库处理得非常慢,那么主库上的这个buffer就会持续增长,消耗大量的内存资源,甚至OOM。所以Redis提供了client-output-buffer-limit参数限制这个buffer的大小,如果超过限制,主库会强制断开这个client的连接,也就是说从库处理慢导致主库内存buffer的积压达到限制后,主库会强制断开从库的连接,此时主从复制会中断,中断后如果从库再次发起复制请求,那么此时可能会导致恶性循环,引发复制风暴,这种情况需要格外注意。
Q: 笔者, repl_backlog_buffer 是一个环形缓冲区,所以在缓冲区写满后,主库会继续写入,此时,就会覆盖掉之前写入的操作。如果从库的读取速度比较慢,就有可能导致从库还未读取的操作被主库新写的操作覆盖了,这会导致主从库间的数据不一致。
A : 这个问题很好, 我们需要尽量避免这一情况,一般而言,可以调整 repl_backlog_size 这个参数。这个参数和所需的缓冲空间大小有关。缓冲空间的计算公式是:缓冲空间大小 = 主库写入命令速度 * 操作大小 - 主从库间网络传输命令速度 * 操作大小。在实际应用中,考虑到可能存在一些突发的请求压力,我们通常需要把这个缓冲空间扩大一倍,即 repl_backlog_size = 缓冲空间大小 * 2,这也就是 repl_backlog_size 的最终值。
举个例子,如果主库每秒写入 2000 个操作,每个操作的大小为 2KB,网络每秒能传输 1000 个操作,那么,有 1000 个操作需要缓冲起来,这就至少需要 2MB 的缓冲空间。否则,新写的命令就会覆盖掉旧操作了。为了应对可能的突发压力,我们最终把 repl_backlog_size 设为 4MB。
这样一来,增量复制时主从库的数据不一致风险就降低了。不过,如果并发请求量非常大,连两倍的缓冲空间都存不下新操作请求的话,此时,主从库数据仍然可能不一致。针对这种情况,一方面,你可以根据 Redis 所在服务器的内存资源再适当增加 repl_backlog_size 值,比如说设置成缓冲空间大小的 4 倍,另一方面,你可以考虑使用切片集群来分担单个主库的请求压力。
小结
主从复制的基本原理:
- 全量复制: 第一次同步时采用增量复制, 建议增量复制时一个 Redis 实例的数据库不要太大, 几GB即可, 这样可以减少RDB生成, 传输, 重新加载时的开销;
- 基于长连接的命令传播:主从库正常运行后的常规同步阶段。在这个阶段中,主从库之间通过命令传播实现同步。
- 增量复制: 当主从网络断链时, 采用增量复制模式, 需要注意的是 repl_backlog_size 这个配置参数。如果它配置得过小,在增量复制阶段,可能会导致从库的复制进度赶不上主库,进而导致从库重新进行全量复制。所以,通过调大这个参数,可以减少从库在网络断连时全量复制的风险。