查询优化--小表驱动大表（In，Exists区别）

2022-08-10 12:36:15

===============

本文将以真实例子来讲解小表驱动大表（In，Exists区别）

1 准备数据

1.1 创建表、函数、存储过程

参照这篇（调用函数和存储过程批量插入数据）文章中的第 1-7 步，注意，不要执行第8步

1.2 插入数据

现在来执行第8步。

1.2.1 向 Department 表中插入 100 条记录

CALL insert_dept(1000, 100)

1.2.2 向 Employee 表中插入 100000 条记录

CALL insert_employee(100000000, 100000);

2 测试

2.1 查询所有 Employee 信息，要求是：Employee 的 dept_id 存在于 Department 表中

Case#1：用 IN

SELECT * FROM employee WHERE dept_id IN (SELECT id FROM department);

结果：在我本机测试了数十次，耗时大概是 120--130 ms

Case#2：用 EXISTS

SELECT * FROM employee e WHERE EXISTS (SELECT 1 FROM department d WHERE e.dept_id = d.id);

结果：在我本机测试了数十次，耗时大概是 350--370 ms

2.2 查询所有 Department 信息，要求是：至少有一条 Employee 记录的 dept_id 对应 Department（或者说：此部门下至少有一条员工记录）

Case#3：用 EXISTS

SELECT * FROM department d WHERE EXISTS (SELECT 1 FROM employee e WHERE d.id = e.dept_id);

结果：在我本机测试了数十次，耗时大概是 4--6 ms

Case#4：用 IN

SELECT * FROM department WHERE id IN (SELECT dept_id FROM employee);

结果：在我本机测试了数十次，耗时大概是 50--55 ms

2.3 分析并总结

在 Case#1，#2 中，Employee 是大表，Department 是小表，用 IN(Department) 的效果较好（大概是用 EXISTS 时间的三分之一）====> IN 后面跟小表~

在 Case#3，#4 中，Employee 是大表，Department 是小表，用 EXISTS(Employee) 的效果较好（大概是用 IN 时间的十分之一）====> EXISTS 后面跟大表~

记忆：IN 后面跟小表~EXISTS 后面跟大表~~~因为 IN 这个单词比 EXISTS 单词更短（更小），EXISTS 这个单词比 IN 更长（更大）

2.4 进一步分析

至于为什么 Case#1 优于 Case#2，Case#3 优于 Case#4，还没搞清楚到底是为什么，，，，，TODO

3 结论

小表驱动大表

IN 小 EXISTS 大

码农公寓