MySQL · 引擎新特性 · 可开关的InnoDB死锁检测

2021-09-15 22:14:59

在数据库系统中，死锁问题几乎是不可避免的，一般要么是资源互相占用导致，或者是系统内部的锁升级（在innodb内尤其普遍），尤其是糟糕的未经审查的SQL设计通常是导致死锁的元凶。在MySQL InnoDB引擎中，死锁的检测是通过深度遍历进行的，每一个需要等待的行锁请求都需要去检测是否可能产生死锁。

关于InnoDB事务锁，可以参阅我之前的一篇博客，这里不展开讨论:MySQL · 引擎特性 · InnoDB 事务锁简介

死锁检测是一个成熟的数据库系统必不可少的功能，但是！如果我们的应用SQL经过了充分合理的设计和验证，能够杜绝绝大部分死锁场景，这样的开销是否是可以避免的呢？

一个典型的场景是秒杀，也就是大量更新落到同一行记录上，此时大量请求同一个记录的排他行锁，导致了很长的等待队列，而死锁检测会去查询整个队列，而在整个过程中，一些全局资源（如lock_sys mutex）会被持有。为了避免检测深度过长的问题，InnoDB默认的最大检测深度为200，当超出时，会打印出死锁信息并结束死锁检测。

在阿里秒杀的场景随处可见，事实上在2012年双十一之前，我们修改MySQL的第一个补丁就是关闭死锁检测，代码量很小，就那么几行代码，带来的效果还不错。（当然这只是我们优化秒杀高并发负载场景下的第一步，远不能满足这几年的业务需求，后来我们进行了一系列的优化措施来改善MySQL以满足需求，我的同事们在不同的场合都提到过，这里我不展开说了）

在MySQL5.7.15版本开始，以及MySQL8.0.0版本，终于把这个特性加上了，增加了新的开关innodb_deadlock_detect来禁止死锁检测。

这里简单的测试下，MySQL版本为8.0.0(在该版本刚发布就把自己的5.7测试环境覆盖掉了，懒得重装了..)，使用sysbench，autocommit的单行更新

关键配置：

innodb_thread_concurrency = 32
sync_binlog = 1000
innodb_flush_log_at_trx_commit = 2

测试数据为TPS(RT ms):

Threads	Turn On	Turn Off
16	8200(2.0ms)	8300(2.03ms)
32	7900(4.32ms)	8100(4.23ms)
64	7600(9.21ms)	7800（9.13ms）
128	4950(28.7ms)	7200（19.28ms）
256	1870 (147.8ms)	6145(48.8ms)
512	442 (1169ms)	4389(129.9ms)
1024	78 (16000ms)	3000（385ms）

从测试可以看到，低并发下基本上性能没啥并发，而在高并发下，TPS和RT则有明显的改善。在该测试中，当达到1024个并发时，实例已经完全不可用了，但关闭死锁检测后，实例依然能够提供3k的TPS

需要注意的是，你必须谨慎的使用这个功能，最好在满足几个条件才应去尝试：

你的业务需要确保死锁极少
你的业务确实有这方面的需求，经过充分的测试并确实能获得提升
如果非要开启这个功能，当真的发生死锁时，只能到锁等待超时才能回滚，因此记得调小innodb_lock_wait_timeout

码农公寓

相关文章