线上redis慢查询排查

一、背景:最近线上redis集群偶尔会有节点内存瞬间暴增,导致节点down掉情况,调整内存由32G扩增到64G,问题还是会出现,观察监控图发现服务器流量、IO都无明显波动

观察redis日志:

线上redis慢查询排查

 

 

然后在查询慢日志的时候发现了猫腻:

线上redis慢查询排查

 

 

 我们先来分析下慢日志的结果:

 1) 1) (integer) 10214                         #唯一性(unique)的日志标识符
    2) (integer) 1623374663                 #被记录命令的执行时间点,以 UNIX 时间戳格式表示
    3) (integer) 41027078                     #查询执行时间,以微秒为单位
    4) 1) "SRANDMEMBER"                    #执行的命令,以数组的形式排列
       2) "chatroom:r:rids:64234553"     #完整慢查询语句:SRANDMEMBER chatroom:r:rids:64234553 -183463424
       3) "-183463424"

结果分析完了,我们再来探讨下关于慢查询的知识:

二、慢查询

slowlog 是 Redis 用来记录查询执行时间的日志系统。注意,这个查询执行时间不包括像客户端响应(talking)、发送回复等 IO 操作,而单单是执行一个查询命令所耗费的时间。 

slowlog 保存在内存里面,读写速度非常快,因此我们可以放心地使用它,不必担心因为开启 slowlog 而损害 Redis 的速度。

slowlog 有两个重要的配置,我们先通过 CONFIG GET slowlog-* 命令来查看现有的配置。

 线上redis慢查询排查

slowlog-log-slower-than 代表慢查询的阈值,单位为:微秒。当执行查询命令消耗时间大于配置的阈值时,会将该条命令记录到慢查询日志。当 slowlog-log-slower-than=0 时,记录所有命令。slowlog-log-slower-than<0 时,不记录任何命令。slowlog-log-slower-than 的默认值为 10000 (10毫秒,1秒 = 1,000毫秒 = 1,000,000微秒)。

slowlog-max-len 代表慢查询日志最大条数。它是一个队列形式的存储结构,先进先出的队列,即当慢查询日志达到最大条数后,会销毁最早记录的日志条目。slowlog-max-len 的默认值为 128,保存在内存内,所以重启 redis 会清空慢查询日志。

配置 slowlog-log-slower-than 和 slowlog-max-len 的命令非常简单,如下:

CONFIG SET slowlog-log-slower-than 100
CONFIG SET slowlog-max-len 1024

使用 SLOWLOG LEN 命令,查询当前的慢查询日志记录数。当我们只需要查询前几个慢查询记录时,可以使用 SLOWLOG GET [n] 命令。SLOWLOG GET [n] 若不加 n ,则获取全部慢查询记录。清空慢查询日志使用 SLOWLOG RESET。注意,slowlog-log-slower-than 不要设置过大,设置过大有可能一条记录也不会记录。

 三、Srandmember命令分析

Redis Srandmember 命令用于返回集合中的一个随机元素。

从 Redis 2.6 版本开始, Srandmember 命令接受可选的 count 参数:

  • 如果 count 为正数,且小于集合基数,那么命令返回一个包含 count 个元素的数组,数组中的元素各不相同。如果 count 大于等于集合基数,那么返回整个集合。
  • 如果 count 为负数,那么命令返回一个数组,数组中的元素可能会重复出现多次,而数组的长度为 count 的绝对值。

该操作和 SPOP 相似,但 SPOP 将随机元素从集合中移除并返回,而 Srandmember 则仅仅返回随机元素,而不对集合进行任何改动。

redis Srandmember 命令基本语法如下:

SRANDMEMBER KEY [count]

返回值:只提供集合 key 参数时,返回一个元素;如果集合为空,返回 nil 。 如果提供了 count 参数,那么返回一个数组;如果集合为空,返回空数组。

 四、总结

那么找到了慢查询语句,就等于抓到了大鱼,下一步就是让研发优化了

 

上一篇:pytorch训练占用cpu过高,num_works和set_num_threads设置均无效,发现是数据扩增的问题


下一篇:为什么阿里巴巴不允许使用Executors创建线程池