深入理解Spring Redis的使用 (九)、通过Redis 实现 分布式锁 的 BUG,以及和数据库加锁的性能测试

在多节点的项目中,经常要涉及到某些方法加锁的控制。而这个时候,简单易用的synchronized已经不能满足多节点的部署结构。

之前在项目中,用的比较多的是数据库的更新锁:for udpate。但是这个有个缺点,就是对于本来就容易出现瓶颈的数据库,造成了更大的压力。同时,如果是锁表的语句,同时表数据量特别大,基本服务器直接宕机了。

所以,决定绕开数据库,直接使用Redis来实现分布式锁。查了下资料,找到一些文章,思路都一致:

http://www.jeffkit.info/2011/07/1000/

http://my.oschina.net/u/1995545/blog/366381

于是参考文章,通过Spring aop注解方法来实现对方法的多节点加锁。

Redis有一系列的命令,特点是以NX结尾,NX是Not eXists的缩写,如SETNX命令就应该理解为:SET if Not eXists。这系列的命令非常有用,这里讲使用SETNX来实现分布式锁。

用SETNX实现分布式锁 
利用SETNX非常简单地实现分布式锁。例如:某客户端要获得一个名字foo的锁,客户端使用下面的命令进行获取: 
SETNX lock.foo <current Unix time + lock timeout + 1>

  • 如返回1,则该客户端获得锁,把lock.foo的键值设置为时间值表示该键已被锁定,该客户端最后可以通过DEL lock.foo来释放该锁。

  • 如返回0,表明该锁已被其他客户端取得,这时我们可以先返回或进行重试等对方完成或等待锁超时。

解决死锁 
上面的锁定逻辑有一个问题:如果一个持有锁的客户端失败或崩溃了不能释放锁,该怎么解决?我们可以通过锁的键对应的时间戳来判断这种情况是否发生了,如果当前的时间已经大于lock.foo的值,说明该锁已失效,可以被重新使用。

发生这种情况时,可不能简单的通过DEL来删除锁,然后再SETNX一次,当多个客户端检测到锁超时后都会尝试去释放它,这里就可能出现一个竞态条件,让我们模拟一下这个场景:

C0操作超时了,但它还持有着锁,C1和C2读取lock.foo检查时间戳,先后发现超时了。 
C1 发送DEL lock.foo 
C1 发送SETNX lock.foo 并且成功了。 
C2 发送DEL lock.foo 
C2 发送SETNX lock.foo 并且成功了。 
这样一来,C1,C2都拿到了锁!问题大了!

幸好这种问题是可以避免的,让我们来看看C3这个客户端是怎样做的:

C3发送SETNX lock.foo 想要获得锁,由于C0还持有锁,所以Redis返回给C3一个0 
C3发送GET lock.foo 以检查锁是否超时了,如果没超时,则等待或重试。 
反之,如果已超时,C3通过下面的操作来尝试获得锁: 
GETSET lock.foo <current Unix time + lock timeout + 1> 
通过GETSET,C3拿到的时间戳如果仍然是超时的,那就说明,C3如愿以偿拿到锁了。 
如果在C3之前,有个叫C4的客户端比C3快一步执行了上面的操作,那么C3拿到的时间戳是个未超时的值,这时,C3没有如期获得锁,需要再次等待或重试。留意一下,尽管C3没拿到锁,但它改写了C4设置的锁的超时值,不过这一点非常微小的误差带来的影响可以忽略不计。

注意:为了让分布式锁的算法更稳键些,持有锁的客户端在解锁之前应该再检查一次自己的锁是否已经超时,再去做DEL操作,因为可能客户端因为某个耗时的操作而挂起,操作完的时候锁因为超时已经被别人获得,这时就不必解锁了。

java之jedis实现
expireMsecs 锁持有超时,防止线程在入锁以后,无限的执行下去,让锁无法释放
timeoutMsecs 锁等待超时,防止线程饥饿,永远没有入锁执行代码的机会

/**
* Acquire lock.
*
* @param jedis
* @return true if lock is acquired, false acquire timeouted
* @throws InterruptedException
* in case of thread interruption
*/
public synchronized boolean acquire(Jedis jedis) throws InterruptedException {
int timeout = timeoutMsecs;
while (timeout >= 0) {
long expires = System.currentTimeMillis() + expireMsecs + 1;
String expiresStr = String.valueOf(expires); //锁到期时间

if (jedis.setnx(lockKey, expiresStr) == 1) {
// lock acquired
locked = true;
return true;
}

String currentValueStr = jedis.get(lockKey); //redis里的时间
if (currentValueStr != null && Long.parseLong(currentValueStr) < System.currentTimeMillis()) {
//判断是否为空,不为空的情况下,如果被其他线程设置了值,则第二个条件判断是过不去的
// lock is expired

String oldValueStr = jedis.getSet(lockKey, expiresStr);
//获取上一个锁到期时间,并设置现在的锁到期时间,
//只有一个线程才能获取上一个线上的设置时间,因为jedis.getSet是同步的
if (oldValueStr != null && oldValueStr.equals(currentValueStr)) {
//如过这个时候,多个线程恰好都到了这里,但是只有一个线程的设置值和当前值相同,他才有权利获取锁
// lock acquired
locked = true;
return true;
}
}
timeout -= 100;
Thread.sleep(100);
}
return false;
}
一般用法
其中很多繁琐的边缘代码
包括:异常处理,释放资源等等

JedisPool pool;
JedisLock jedisLock = new JedisLock(pool.getResource(), lockKey, timeoutMsecs, expireMsecs);
try {
if (jedisLock.acquire()) { // 启用锁
//执行业务逻辑
} else {
logger.info("The time wait for lock more than [{}] ms ", timeoutMsecs);
}
} catch (Throwable t) {
// 分布式锁异常
logger.warn(t.getMessage(), t);
} finally {
if (jedisLock != null) {
try {
jedisLock.release();// 则解锁
} catch (Exception e) {
}
}
if (jedis != null) {
try {
pool.returnResource(jedis);// 还到连接池里
} catch (Exception e) {
}
}
}
犀利用法
用匿名类来实现,代码非常简洁
至于SimpleLock的实现

SimpleLock lock = new SimpleLock(key);
lock.wrap(new Runnable() {
@Override
public void run() {
//此处代码是锁上的
}
});

之前的文章给了实现的代码。并没有什么难度,注解+AOP。

但是今天做压力测试的时候,发现这个大有问题。

测试环境:

1000线程,每个线程执行1次。(这种更接近真实的tomcat环境)

sleep时间和执行时间:

* 20ms 约等于cpu线程切换时间,59998
* 50ms 43177
* 100ms 20555
* 150ms 7014 
* 200ms 2970 性能尚可

但是,如果设置200ms,有可能有些线程,从最开始阻塞不断sleep,到最后全部结束了,才拿到锁。如果程序不结束,那么该线程就一直堵死,无法预料究竟多久能拿到锁。如果去设置等待多久超时断开,那么频繁的失败,对于用户肯定是无法接受的。

于是又测试数据库的锁

一张70W数据的表,

通过pk行级锁,执行时间1163(需要被锁数据存在的情况下,才能加上对应的锁),而且如果是每个线程都是各自的数据行的话,相互不阻塞会更快.(SSD固态硬盘。。。)

通过其他列表锁,一秒执行一次的感觉,直接卡死,停止测试

所以,通过sleep来等待,并发高的情况下,将会导致某些线程失控。

但是wait notify,又是针对单节点下才能使用。

也可以做到最细粒度,然后再用redis加锁,这样,降低线程堵死的可能性。

总结:

要么使用阻塞的方式来调度线程,

要么就实现一个可以在分布式环境下的类似NIO的reactor模式来进行调度。

保证先入先出,即使有些慢的状态下,不至于先来的反而堵死,造成差的体验。

或者为每个请求设置超时时间,超时抛出异常。

上一篇:Flask-email 发送邮件的配置,发送附件的方法,以及os.environ.get('MAIL_USERNAME')为None的解决办法


下一篇:log4net记录系统错误日志到文本文件用法详解(最新)