NoSQL数据库之Redis(Sentinel)哨兵

redis 哨兵(Sentinel)

redis 集群介绍

主从架构无法实现master和slave角色的自动切换,即当master出现redis服务异常、主机断电、磁盘损
坏等问题导致master无法使用,而redis主从复制无法实现自动的故障转移(将slave 自动提升为新
master),需要手动修改环境配置,才能切换到slave redis服务器,另外当单台Redis服务器性能无法满足
业务写入需求的时候,也无法横向扩展Redis服务的并行写入性能

需要解决以上的两个核心问题:
master和slave角色的无缝切换,让业务无感知从而不影响业务使用
可横向动态扩展Redis服务器,从而实现多台服务器并行写入以实现更高并发的目的。
Redis 集群实现方式:
客户端分片: 由应用决定将不同的KEY发送到不同的Redis服务器
代理分片: 由代理决定将不同的KEY发送到不同的Redis服务器,代理程序如:codis,twemproxy等
Redis Cluster

哨兵 (Sentinel) 工作原理

sentinel 架构和故障转移

Sentinel 进程是用于监控redis集群中Master主服务器工作的状态,在Master主服务器发生故障的时
候,可以实现Master和Slave服务器的切换,保证系统的高可用,此功能在redis2.6+的版本已引用,
Redis的哨兵模式到了2.8版本之后就稳定了下来。一般在生产环境也建议使用Redis的2.8版本的以后版
本
哨兵(Sentinel) 是一个分布式系统,可以在一个架构中运行多个哨兵(sentinel) 进程,这些进程使用流言
协议(gossip protocols)来接收关于Master主服务器是否下线的信息,并使用投票协议(Agreement
Protocols)来决定是否执行自动故障迁移,以及选择哪个Slave作为新的Master
每个哨兵(Sentinel)进程会向其它哨兵(Sentinel)、Master、Slave定时发送消息,以确认对方是否”活”
着,如果发现对方在指定配置时间(此项可配置)内未得到回应,则暂时认为对方已离线,也就是所谓的”
主观认为宕机” (主观(单个):是每个成员都具有的独自的而且可能相同也可能不同的意识),英文名称:
Subjective Down,简称SDOWN

有主观宕机,对应的有客观宕机。当“哨兵群”中的多数Sentinel进程在对Master主服务器做出SDOWN
的判断,并且通过 SENTINEL is-master-down-by-addr 命令互相交流之后,得出的Master Server下线判断,这种方式就是“客观宕机”(客观(多个):是不依赖于某种意识而已经实际存在的一切事物),英文名称是:
Objectively Down, 简称 ODOWN
通过一定的vote算法,从剩下的slave从服务器节点中,选一台提升为Master服务器节点,然后自动修
改相关配置,并开启故障转移(failover)
Sentinel 机制可以解决master和slave角色的自动切换问题,但单个 Master 的性能瓶颈问题无法解决,
类似于MySQL中的MHA功能
Redis Sentinel中的Sentinel节点个数应该为大于等于3且最好为奇数
客户端初始化时连接的是Sentinel节点集合,不再是具体的Redis节点,但Sentinel只是配置中心不是代
理。
Redis Sentinel 节点与普通redis 没有区别,要实现读写分离依赖于客户端程序
redis 3.0 之前版本中,生产环境一般使用哨兵模式,3.0后推出redis cluster功能,可以支持更大规模的生产环境

sentinel中的三个定时任务

每10秒每个sentinel对master和slave执行info发现slave节点确认主从关系

每2秒每个sentinel通过master节点的channel交换信息(pub/sub)通过sentinel__:hello频道交互
交互对节点的“看法”和自身信息

每1秒每个sentinel对其他sentinel和redis执行ping

实现哨兵

哨兵的准备实现主从复制架构

哨兵的前提是已经实现了一个redis的主从复制的运行环境,从而实现一个一主两从基于哨兵的高可用
redis架构
注意: master 的配置文件中masterauth 和slave 都必须相同
所有主从节点的redis.conf中关键配置

范例: 准备主从环境配置

#在所有主从节点执行
[root@centos8 ~]# yum -y install redis
[root@centos8 ~]# vim /etc/redis.conf
bind 0.0.0.0
masterauth "123456"
requirepass "123456"

#或者非交互执行
[root@centos8 ~]# sed -i -e 's/bind 127.0.0.1/bind 0.0.0.0/' -e 's/^# masterauth.*/masterauth 123456/' -e 's/^#requirepass .*/requirepass 123456/' /etc/redis.conf

#在所有从节点执行
[root@centos8 ~]# echo "replicaof 172.31.0.8 6379" >> /etc/redis.conf

#在所有主从节点执行
[root@centos8 ~]# systemctl enable --now redis

master服务器状态

[root@redis-master ~]# redis-cli -a 123456
Warning: Using a password with '-a' or '-u' option on the command line interface may not
127.0.0.1:6379> INFO replication
# Replication
role:master
connected_slaves:2
slave0:ip=172.31.0.28,port=6379,state=online,offset=112,lag=1
slave1:ip=172.31.0.18,port=6379,state=online,offset=112,lag=0
...

配置slave1

[root@redis-slave1 ~]# redis-cli -a 123456
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
127.0.0.1:6379> REPLICAOF 172.31.0.8 6379
OK
127.0.0.1:6379> CONFIG SET masterauth "123456"
OK
127.0.0.1:6379> INFO replication
# Replication
role:slave
master_host:172.31.0.8
master_port:6379
master_link_status:up
...

配置slave2

[root@redis-slave2 ~]# redis-cli -a 123456
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
127.0.0.1:6379> REPLICAOF 172.31.0.8 6379
OK
127.0.0.1:6379> CONFIG SET masterauth "123456"
OK
127.0.0.1:6379> INFO replication
# Replication
role:slave
master_host:172.31.0.8
master_port:6379
master_link_status:up

编辑哨兵的配置文件

sentinel配置

Sentinel实际上是一个特殊的redis服务器,有些redis指令支持,但很多指令并不支持.默认监听在26379/tcp端口.
哨兵可以不和Redis服务器部署在一起,但一般部署在一起以节约成本

所有redis节点使用相同的以下示例的配置文件

#如果是编译安装,在源码目录有sentinel.conf,复制到安装目录即可,
如:/apps/redis/etc/sentinel.conf
[root@centos8 ~]# vim /etc/redis-sentinel.conf
bind 0.0.0.0
port 26379
daemonize yes
pidfile "/var/run/redis-sentinel.pid"
logfile "/var/log/redis/sentinel_26379.log"
dir "/tmp" #工作目录
sentinel monitor mymaster 172.31.0.8 6379 2
#mymaster是集群的名称,此行指定当前mymaster集群中master服务器的地址和端口
#2为法定人数限制(quorum),即有几个sentinel认为master down了就进行故障转移,一般此值是所有
sentinel节点(一般总数是>=3的奇数,如:3,5,7等)的一半以上的整数值,比如,总数是3,即3/2=1.5,取整为2,是master的ODOWN客观下线的依据
sentinel auth-pass mymaster 123456
#mymaster集群中master的密码,注意此行要在上面行的下面
sentinel down-after-milliseconds mymaster 30000
#(SDOWN)判断mymaster集群中所有节点的主观下线的时间,单位:毫秒,建议3000
sentinel parallel-syncs mymaster 1
#发生故障转移后,可以同时向新master同步数据的slave的数量,数字越小总同步时间越长,但可以减轻新master的负载压力
sentinel failover-timeout mymaster 180000
#所有slaves指向新的master所需的超时时间,单位:毫秒
sentinel deny-scripts-reconfig yes #禁止修改脚本
logfile /var/log/redis/sentinel.log

三个哨兵服务器的配置都如下

[root@redis-master ~]#grep -vE "^#|^$" /etc/redis-sentinel.conf
port 26379
daemonize yes
pidfile "/var/run/redis-sentinel.pid"
logfile "/var/log/redis/sentinel.log"
dir "/tmp"
sentinel monitor mymaster 172.31.0.8 6379 2 #修改此行
sentinel auth-pass mymaster 123456 #增加此行
sentinel down-after-milliseconds mymaster 3000 #修改此行
sentinel parallel-syncs mymaster 1
sentinel failover-timeout mymaster 180000
sentinel deny-scripts-reconfig yes

#以下内容自动生成,不需要修改
sentinel myid 50547f34ed71fd48c197924969937e738a39975b
#此行自动生成必须唯一,修改此值需重启redis和sentinel服务
.....
# Generated by CONFIG REWRITE
protected-mode yes
supervised systemd
sentinel leader-epoch mymaster 0
sentinel known-replica mymaster 172.31.0.28 6379
sentinel known-replica mymaster 172.31.0.18 6379
sentinel current-epoch 0

# 如果是配置好一台然后使用远程拷贝文件的,
[root@redis-master ~]# scp /etc/redis-sentinel.conf redis-slave1:/etc/
[root@redis-master ~]# scp /etc/redis-sentinel.conf redis-slave2:/etc/

注意:改好配置文件先不要启动redis和redis-sentinel服务,等所有节点都拷贝完成再启动,不然myid会出现相同的问题

启动哨兵,
三台哨兵服务器都要启动

#确保每个哨兵主机myid不同
[root@redis-slave1 ~]# grep myid /etc/redis-sentinel.conf

sentinel myid 9088ef55d94627b6078c22968dde240ced300b14

[root@redis-slave2 ~]# grep myid /etc/redis-sentinel.conf
sentinel myid ad0e1f899fa97fba92d286b3ba5baa997eac59f8

[root@redis-master ~]# systemctl enable --now redis-sentinel.service
[root@redis-slave1 ~]# systemctl enable --now redis-sentinel.service
[root@redis-slave2 ~]# systemctl enable --now redis-sentinel.service

#如果是编译安装在所有节点生成新的service文件
[root@redis-master ~]# cat /lib/systemd/system/redis-sentinel.service
[Unit]
Description=Redis Sentinel
After=network.target
[Service]
ExecStart=/apps/redis/bin/redis-sentinel /apps/redis/etc/redis-sentinel.conf --
supervised systemd
ExecStop=/bin/kill -s QUIT $MAINPID
User=redis
Group=redis
RuntimeDirectory=redis
RuntimeDirectoryMode=0755
[Install]
WantedBy=multi-user.target

#注意所有节点的目录权限,否则无法启动服务
[root@redis-master ~]# chown -R redis.redis /apps/redis/

如果是编译安装,在所有哨兵服务器执行下面操作启动哨兵

[root@redis-master ~]# vim /apps/redis/etc/sentinel.conf
bind 0.0.0.0
port 26379
daemonize yes
pidfile "redis-sentinel.pid"
Logfile "sentinel_26379.log"
dir "/apps/redis/data"
sentinel monitor mymaster 172.31.0.8 6379 2
sentinel auth-pass mymaster 123456 (如果是master不需要设置这个密码)
sentinel down-after-milliseconds mymaster 15000
sentinel parallel-syncs mymaster 1
sentinel failover-timeout mymaster 180000
sentinel deny-scripts-reconfig yes

#/apps/redis/bin/redis-sentinel /apps/redis/etc/sentinel.conf

验证哨兵端口

[root@redis-master ~]# ss -ntl
26379

查看哨兵日志
master的哨兵日志

[root@redis-master ~]# tail -f /var/log/redis/sentinel.log
38028:X 20 Feb 2021 17:13:08.702 # oO0OoO0OoO0Oo Redis is starting oO0OoO0OoO0Oo
38028:X 20 Feb 2021 17:13:08.702 # Redis version=5.0.3, bits=64,
commit=00000000, modified=0, pid=38028, just started

slave的哨兵日志

[root@redis-slave1 ~]# tail -f /var/log/redis/sentinel.log
25509:X 20 Feb 2021 17:13:27.435 * Removing the pid file.
25509:X 20 Feb 2021 17:13:27.435 # Sentinel is now ready to exit, bye bye...
25572:X 20 Feb 2021 17:13:27.448 # oO0OoO0OoO0Oo Redis is starting oO0OoO0OoO0Oo
25572:X 20 Feb 2021 17:13:27.448 # Redis version=5.0.3, bits=64,
commit=00000000, modified=0, pid=25572, just started

当前sentinel状态

在sentinel状态中尤其是最后一行,涉及到masterIP是多少,有几个slave,有几个sentinels,必须是符合全部服务器数量

[root@redis-master ~]# redis-cli -p 26379
127.0.0.1:26379> INFO sentinel
# Sentinel
sentinel_masters:1
sentinel_tilt:0
sentinel_running_scripts:0
sentinel_scripts_queue_length:0
sentinel_simulate_failure_flags:0
master0:name=mymaster,status=ok,address=172.31.0.8:6379,slaves=2,sentinels=3 #两个
slave,三个sentinel服务器,如果sentinels值不符合,检查myid可能冲突

停止Redis Master 节点测试故障转移

[root@redis-master ~]# killall redis-server

查看各节点上哨兵信息:

[root@redis-master ~]# redis-cli -a 123456 -p 26379
Warning: Using a password with '-a' or '-u' option on the command line interface
may not be safe.
127.0.0.1:26379> INFO sentinel
# Sentinel
sentinel_masters:1
sentinel_tilt:0
sentinel_running_scripts:0
sentinel_scripts_queue_length:0
sentinel_simulate_failure_flags:0
master0:name=mymaster,status=ok,address=172.31.0.18:6379,slaves=2,sentinels=2

故障转移时sentinel的信息:

[root@redis-master ~]# tail -f /var/log/redis/sentinel.log
38028:X 20 Feb 2021 17:42:27.362 # +sdown master mymaster 172.31.0.8 6379
38028:X 20 Feb 2021 17:42:27.418 # +odown master mymaster 172.31.0.8 6379 #quorum

故障转移后的redis配置文件会被自动修改

故障转移后redis.conf中的replicaof行的master IP会被修改

[root@redis-slave2 ~]# grep ^replicaof /etc/redis.conf
replicaof 172.31.0.18 6379

哨兵配置文件的sentinel monitor IP 同样也会被修改

[root@redis-slave1 ~]# grep "^[a-Z]" /etc/redis-sentinel.conf
port 26379
daemonize yes
pidfile "/var/run/redis-sentinel.pid"
logfile "/var/log/redis/sentinel.log"
dir "/tmp"
sentinel myid 50547f34ed71fd48c197924969937e738a39975b
sentinel deny-scripts-reconfig yes
sentinel monitor mymaster 172.31.0.18 6379 2 #自动修改此行

[root@redis-slave2 ~]# grep "^[a-Z]" /etc/redis-sentinel.conf
port 26379
daemonize yes
pidfile "/var/run/redis-sentinel.pid"
logfile "/var/log/redis/sentinel.log"
dir "/tmp"
sentinel myid 50547f34ed71fd48c197924969937e738a39975d
sentinel deny-scripts-reconfig yes
sentinel monitor mymaster 172.31.0.18 6379 2 #自动修改此行

当前 redis状态
新的master 状态

[root@redis-slave1 ~]# redis-cli -a 123456
Warning: Using a password with '-a' or '-u' option on the command line interface
may not be safe.
127.0.0.1:6379> INFO replication
# Replication
role:master #提升为master
connected_slaves:1
slave0:ip=172.31.0.28,port=6379,state=online,offset=56225,lag=1

另一个slave指向新的master

[root@redis-slave2 ~]# redis-cli -a 123456
Warning: Using a password with '-a' or '-u' option on the command line interface
may not be safe.
127.0.0.1:6379> INFO replication
# Replication
role:slave
master_host:172.31.0.18 #指向新的master
master_port:6379
master_link_status:up

恢复故障的原master重新加入redis集群

[root@redis-master ~]# cat /etc/redis.conf
#sentinel会自动修改下面行指向新的master
replicaof 172.31.0.18 6379

在原 master上观察状态

[root@redis-master ~]# redis-cli -a 123456
Warning: Using a password with '-a' or '-u' option on the command line interface
may not be safe.
127.0.0.1:6379> INFO replication
# Replication
role:slave
master_host:172.31.0.18
master_port:6379
master_link_status:up
...
[root@redis-master ~]# redis-cli -p 26379
127.0.0.1:26379> INFO sentinel
# Sentinel
sentinel_masters:1
sentinel_tilt:0
sentinel_running_scripts:0
sentinel_scripts_queue_length:0
sentinel_simulate_failure_flags:0
master0:name=mymaster,status=ok,address=172.31.0.18:6379,slaves=2,sentinels=3

观察新master上状态和日志

[root@redis-slave1 ~]# redis-cli -a 123456
Warning: Using a password with '-a' or '-u' option on the command line interface
may not be safe.
127.0.0.1:6379> INFO replication
# Replication
role:master
connected_slaves:2
slave0:ip=172.31.0.28,port=6379,state=online,offset=769027,lag=0
slave1:ip=172.31.0.8,port=6379,state=online,offset=769027,lag=0

[root@redis-slave1 ~]# tail -f /var/log/redis/sentinel.log
25717:X 20 Feb 2021 17:42:33.757 # +sdown slave 172.31.0.8:6379 10.0.0.8 6379 @
mymaster 172.31.0.18 6379
25717:X 20 Feb 2021 18:41:29.566 # -sdown slave 172.31.0.8:6379 172.31.0.8 6379 @
mymaster 172.31.0.18 6379

sentinel 运维

手动让主节点下线

sentinel failover <masterName>

范例: 手动故障转移

[root@centos8 ~]# vim /etc/redis.conf
replica-priority 10 #指定优先级,值越小sentinel会优先将之选为新的master,默为值为100
[root@centos8 ~]# redis-cli -p 26379
127.0.0.1:26379> sentinel failover mymaster
OK

应用程序如何连接 redis

Redis 官方客户端:https://redis.io/clients

客户端连接 sentinel 工作原理

1. 客户端获取sentinel节点集合,选举出一个sentinel
2. 由这个sentinel通过masterName获取master节点信息,客户端通过sentinel get-master-addr-byname master-name这个api来获取对应主节点信息
3. 客户端发送role指令确认mater的信息,验证当前获取的“主节点”是真正的主节点,这样的目的是为了防止故障转移期间主节点的变化
4. 客户端保持和sentinel节点集合的联系,即订阅sentinel节点相关频道,时刻获取关于主节点的相关信息,获取新的master 信息变化,并自动连接新的master

java 连接Sentinel哨兵

java 客户端连接Redis:https://github.com/xetorthio/jedis/blob/master/pom.xml

python 连接Sentinel哨兵

[root@centos8 ~]# yum -y install python3 python3-redis
[root@centos8 ~]# cat sentinel_test.py

报错

[root@centos8 ~]# tail -f /var/log/redis/sentinel.log

34767:X 08 Jul 2021 05:58:08.885 # +new-epoch 10
34767:X 08 Jul 2021 05:58:08.886 # +vote-for-leader bfde7cf3bed44d35a9ff08699d705219bfeb2bdf 10
34767:X 08 Jul 2021 05:58:08.886 # +sdown master mymaster 172.31.0.8 6379
34767:X 08 Jul 2021 05:58:08.886 # +odown master mymaster 172.31.0.8 6379 #quorum 1/1
34767:X 08 Jul 2021 05:58:08.886 # Next failover delay: I will not start a failover before Thu Jul  8 06:04:09 2021

解决办法:

添加这个参数:
sentinel failover-timeout mymaster 180000
#所有slaves指向新的master所需的超时时间,单位:毫秒
上一篇:Redis主从复制及哨兵模式


下一篇:SAP License:税额保留小数位差异处理