性能分析

2023-09-23 14:03:27

十二、性能分析

1 SQL变慢的原因

性能下降、 SQL 慢、执行时间长、等待时间长的原因一般有：

关联查询使用太多JOIN语句
索引失效（建立了索引，但没有用到）：
查询语句本身的问题
服务器调优及各个参数设置（缓冲、线程数等）

2 JOIN详解

SQL变慢的其中一个原因是使用了太多JOIN，为什么会这样？首先需要了解SQL语句的执行顺序。

2.1 SQL 执行顺序

我们手写的sql一般如下，看起来是从上到下顺序执行的：

SELECT DISTINCT
	< select_list > 
FROM
	< left_table > < join_type >
	JOIN < right_table > ON < join_condition > 
WHERE
	< where_condition > 
GROUP BY
	< groupby_list > 
HAVING
	< having_condition > 
ORDER BY
	< order_by_condition > 
	LIMIT < limit_number >;

但是这些语句在解析器的执行顺序却并不是这样，实际执行顺序如下（随着 Mysql 版本的更新换代，其优化器也在不断的升级，优化器会分析不同执行顺序产生的性能消耗不同而动态调整执行顺序）：

FROM
	< left_table > 
ON < join_condition > < join_type >
	JOIN < right_table > 
WHERE
	< where_condition > 
GROUP BY
	< groupby_list > 
HAVING
	< having_condition > 
SELECT DISTINCT
	< select_list > 
ORDER BY
	< order_by_condition > 
	LIMIT < limit_number >;

可以看到解析器首先执行FROM，最关心数据是从哪里来的，sql语句在机器看来的解析顺序如下图：

2.2 JOIN图

所有的JOIN如图所示：

3 MySQL 常见瓶颈

对于MySQL的运行来说，有如下常见瓶颈：

CPU 瓶颈：CPU在饱和的时候一般发生在数据装入在内存或从磁盘上读取数据时候
IO 瓶颈：磁盘I/O瓶颈发生在装入数据远大于内存容量时
服务器硬件的性能瓶颈：使用top、free、iostat和vmstat来查看系统的性能状态

4 EXPLAIN

4.1 如何使用

使用EXPLAIN关键字可以模拟优化器执行SQL语句，从而知道MySQL是如何处理SQL语句的，可以用于分析你的查询语句或者是结构的性能瓶颈。

使用方法：

# 原sql语句：SELECT * FROM student;
# EXPLAIN+原sql语句
EXPLAIN SELECT * FROM student;

结果如下：

可以看到返回了一些字段，根据这些字段可以得到如下信息：

表的读取顺序（id字段）
数据读取操作的操作类型（select_type字段）
哪些索引可以使用（possible_keys字段）
哪些索引被实际使用（keys字段）
表之间的引用（ref字段）
每张表有多少行被优化器查询（rows字段）

4.2 各个字段的详细解释

1、id字段

select查询的序列号，包含一组数字，表示查询中执行select子句或操作表的顺序。
它的取值有三种情况
- id相同，执行顺序由上至下
- id全不同，如果是子查询，id的序号会递增，id值越大优先级越高，越先被执行
- id部分相同，可以这样理解：id相同的可以认为是一组，每组中表的读取顺序为从上往下顺序执行；在所有组之间，id值越大的那一组优先级越高，越先执行

2、select_type字段，为查询的类型，主要用于区别普通查询、联合查询、子查询等复杂查询

SIMPLE：简单的select查询，查询中不包含子查询或者UNION
PRIMARY：查询中若包含任何复杂的子部分，最外层查询则被标记为PRIMARY
SUBQUERY：在SELECT或者WHERE列表中包含了子查询
DERIVED：在FROM列表中包含的子查询被标记为DERIVED（衍生）MySQL会递归执行这些子查询，把结果放在临时表里
UNION：若第二个SELECT出现在UNION之后，则被标记为UNION；若UNION包含在FROM子句的子查询中，外层SELECT将被标为：DERIVED
UNION RESULT：从UNION表获取结果的SELECT

3、table字段，显示这一行的数据是关于哪张表的。

4、type字段，访问类型排列，显示查询使用了何种类型

结果值从最好到最坏依次是
- system>const>eq_ref>ref>fultext>ref_or_null>index_merge>unique_subquery>index_subquery>range>index>ALL
- 挑重要的来说system>const>eq_ref>ref>range>index>ALL，一般来说，百万以上级别的数据要保证查询至少达到range级别，最好能达到ref。
类型详解：
- system：表只有一行记录（等于系统表），这是const类型的特例，平时不会出现，可以忽略不计。
- const：表示通过索引一次就找到了，const用于比较primary key或者unique索引。因为只匹配一行数据，所以很快。如将主键置于where列表中，MySQL就能将该查询转换为一个常量，如图：
- eq_ref：唯一性索引，对于每个索引键，表中只有一条记录与之匹配，常见于主键或唯一索引扫描
- ref：非唯一索引扫描，返回匹配某个单独值的所有行。本质上也是一种索引访问，它返回所有匹配某个单独值的行，然而，它可能会找到多个符合条件的行，所以他应该属于查找和扫描的混合体
- range：只检索给定范围的行，使用一个索引来选择行。key列显示使用了哪个索引一般就是在你的where语句中出现了between、<、>、in等的查询这种范围扫描索引扫描比全表扫描要好，因为他只需要开始索引的某一点，而结束于另一点，不用扫描全部索引（在范围内扫描）
- index：Full Index Scan（全索引扫描），index与ALL区别为index类型只遍历索引树。这通常比ALL快，因为索引文件通常比数据文件小。（也就是说虽然all和index都是读全表，但index是从索引中读取的，而all是从硬盘数据库文件中读的）
- all：FullTable Scan，将遍历全表以找到匹配的行（全表扫描），最差的扫描

5、possible_keys字段

显示可能应用在这张表中的索引，一个或多个
若查询涉及的字段上存在索引，则该索引将被列出，但不一定被查询实际使用

6、key字段

实际使用的索引，如果为null，则没有使用索引
若查询中使用了覆盖索引，则该索引仅出现在key列表中

7、key_len字段

表示索引中使用的字节数，可通过该列计算查询中使用的索引的长度。在不损失精确性的情况下，长度越短越好
key_len显示的值为索引最大可能长度，并非实际使用长度，即key_len是根据表定义计算而得，不是通过表内检索出的
要查询的精度越高，所消耗的索引字节数就越多：

8、ref字段

显示索引哪一列被使用了，如果可能的话，最好是一个常数。说明了哪些列或常量被用于查找索引列上的值。
如图，先加载t2，类型为全表扫描，再加载t1，使用到了索引，由key_len可知t1表的索引idx_col1_col2被充分使用，t2表的col被用于在索引上查找，常量'ac'也被用于在索引上查找。

9、rows字段

根据表统计信息及索引选用情况，大致估算出找到所需的记录所需要读取的行数（越小越好）

10、Extra字段，包含不适合在其他列中显示但十分重要的额外信息

Using filesort（文件排序）
- MySQL中无法利用索引完成排序操作称为“文件排序”，说明mysql会对数据使用一个外部的索引排序，而不是按照表内的索引顺序进行读取。
  
  出现 Using filesort 不好，需要尽快优化 SQL
Using temporary（创建临时表)
- 使用了临时表保存中间结果，MySQL在对查询结果排序时使用临时表。常见于排序 order by 和分组查询 group by
- 出现 Using temporary 非常不好，需要立即优化 SQL
Using index（覆盖索引）
- 表示相应的select操作中使用了覆盖索引（Coveing Index），避免访问了表的数据行，效率不错。
- 如果同时出现using where，表明索引被用来执行索引键值的查找
- 如果没有同时出现using where，表明索引用来读取数据而非执行查找动作
Using where：表明使用了where过滤
Using join buffer：表明使用了连接缓存
impossible where：where子句的值总是false，不能用来获取任何元组
select tables optimized away：在没有GROUPBY子句的情况下，基于索引优化MIN/MAX操作或者对于MyISAM存储引擎优化COUNT(*)操作，不必等到执行阶段再进行计算，查询执行计划生成的阶段即完成优化。
distinct：优化distinct，在找到第一匹配的元组后即停止找同样值的工作

码农公寓