MySQL---1.索引

 

一、答疑

Q:如果插入的数据是在主键树叶子结点的中间,后面的所有页如果都是满的状态,是不是会造成后面的每一页都会去进行页分裂操作,直到最后一个页申请新页移过去最后一个值

A:不会不会,只会分裂它要写入的那个页面。每个页面之间是用指针串的,改指针就好了,不需要后面的全部挪动

 

Q:插入数据如果是在某个数据满了页的首尾,为了减少数据移动和页分裂,会先去前后两个页看看是否满了,如果没满会先将数据放到前后两个页上,不知道是不是有这种情况

A:对,为了增加空间利用率     

 

Q:为什么需要索引重建?

A:索引可能因为删除,或者页分裂等原因,导致数据页有空洞,重建索引的过程会创建一个新的索引,把数据按顺序插入,这样页面的利用率最高,也就是索引更紧凑、更省空间。

 

二、普通索引和唯一索引

MySQL---1.索引

1.查询过程

例子:select id from T where k=5

这个查询语句在K索引树的查找过程,先从B+树的树根开始,按层搜索到叶子节点,即数据页,再在数据页记录内部通过二分法来定位记录

普通索引:查找到满足条件的第一个记录(5,500)后,需要继续查找下一个记录,直到碰到第一个不满足k=5的记录

唯一索引:由于索引定义了唯一性,查找到第一个满足条件的记录后,就会停止检索

由于innodb的数据是按照数据页为单位来读写的,当找到k=5的记录的时候,他所在的数据页基本上都在内存里了,所以对于普通索引来说,要多做的那一次查找和判断下一条记录,就只需要一次指针寻址和一次计算。

所以此时,普通索引和唯一索引差别不大

 

2.更新过程

例子:插入一个新纪录(4,400)

①这个操作要更新的数据页已经在内存中

对于唯一索引来说,找到数据页中是否有4的记录,如果没有直接插入,如果有则冲突,执行结束

对于普通索引来说,找到3和5之间的位置,插入这个值,执行结束

====>>>效率差不多

②这个操作要更新的数据页没有在内存中

对于唯一索引来说,从磁盘中找到该记录所在的数据页,加载到内存中,若没有冲突,则直接插入这个值,执行结束

对于普通索引来说,直接写入change buffer中,执行结束

====>>>将数据从磁盘读到内存,涉及到随机IO访问,是数据库中成本最高的操作之一,change buffer因为减少了磁盘随机访问,所以能够提高性能

 

注:

1.change buffer

change buffer基本使用:

①当需要更新一个数据页时,若当前数据页在内存中,则直接更新;

若这个数据页还没有在内存中,在不影响数据一致性的情况下,innodb会把这些更新操作缓存在change buffer,这样就不需要从磁盘读取数据页到内存中。

在下次查询需要访问这个数据页的时候,将数据页读入内存,将会执行change buffer中与这个数据页相关的操作。

②将change buffer中的操作应用到内存的数据页中并写入到redo log,得到最新结果的过程称为merge。

除了查询这个数据页会触发merge以外,系统后台还会有定时任务来触发merge,在数据库正常关闭的时候也会触发merge

 

change buffer的适用场景:

①对于唯一索引来说,所有的更新操作都会判断这个操作是否违反唯一性约束。比如,要插入(4,400)这个记录(4为主键),就要先判断现在表中是否存在k=4的记录,而这必须要将数据从磁盘读到内存中,

这样才能进行判断k=4是否存在,如果已经都读入到内存中,那直接更新内存会更快,就没必要写入change buffer了。

因此,唯一索引的更新就不能使用change buffer,只有普通索引才能够使用

②因为merge的时候是真正进行数据更新的时刻,而change buffer的作用就是将记录变更的动作缓存下来,所以在一个数据页做merge之前,change buffer记录该数据页上的变更越多越好

因此,对于写多读少的业务来说,写完数据页马上读到该数据页的可能性比较小,此时使用change buffer最好。

反之,如果写完以后马上会查到该数据页,会立即触发merge过程,如果频次较高,则change buffer的维护成本增大,所以对这这种业务模式来说,change buffer反而起到了反作用

 

change buffer的大小:

change buffer用的是buffer pool中的内存,不能无限增大,change buffer的大小,可以通过innodb_change_buffer_max_size来动态设置。

这个参数设置为50时,表示最多只能占用buffer pool的50%空间

 

2.change buffer 和 redo log 区别

change buffer主要是节省随机读磁盘的IO消耗(唯一索引,需要随机读磁盘到内存中,再更新,非唯一索引只需要写到change buffer)

redo log主要是节省随机写磁盘的IO消耗,转成顺序写

change buffer 的操作也会记录到redo log 中,进行持久化磁盘

三、优化器的索引选择

1.影响优化器选择索引的主要因素

①扫描的行数

MySQL在真正开始执行语句之前,并不能精确的知道满足这个条件的记录有多少条,而只能根据统计信息来估算记录的行数。

这个统计信息就是索引的区分度。一个索引上不同的值越多,这个索引的区分度越高。而一个索引上不同值的个数,称之为基数,也就是说,基数越大,索引的区分度越好

基数的获取:

innodb默认选择N个数据页,统计这些页面上的不同值,得到一个平均值,然后乘以这个索引的页面数,就得到这个索引的基数。当变更的数据行数超过1/M的时候,会自动触发重新做一次索引统计

索引统计的配置:innodb_status_persistent

设置为on时,表示统计信息会持久化存储。这时,默认N为20,M为10

设置为off时,表示统计信息会存储在内存中。这时,默认N为8,M为16

 

但是由于是估算,所以会出现统计信息不正确的情况,可以使用 analyze table t 命令,重新统计索引信息

知道了一个辅助索引上不同值的个数,即基数,又如何知道一个辅助索引值下面平均对应多少条记录?

 

②回表

使用辅助索引,每次从辅助索引拿到一个主键值,都要去主键索引上查出整行的数据,这个代价优化器也会算进去。

导致不走辅助索引,直接使用主键索引全表扫描

 

③是否排序

例子:mysql> explain select * from t where (a between 1 and 1000) and (b between 50000 and 100000) order by b limit 1;

a,b均有索引,order by b 有可能导致优化器选择索引b进行查询,因为根据索引b查询的话,不需要再做排序,只需要遍历

 

④临时表

 

2.选择最合适的索引

优化器选择索引不能保证每次都是最优的,有可能选择别的索引,所花费时间更少!!!!

如果出现原本可以执行很快的SQL语句,由于索引选择错误却执行的比较慢,可以使用以下方法处理:

①使用force index强行选择一个索引

select * from t force index(a) where (a between 1 and 1000) and (b between 50000 and 100000) order by b limit 1;

②修改SQL语句,引到MySQL使用我们期望的索引(具体情况具体修改)

③新建一个更合适的索引,或者删除误用的索引

根据实际需要,删除优化器选择的错误索引

④使用 analyze table t 命令,重新统计索引信息

如果explain结果预估的rows值和实际情况差距比较大,可以采用这个方法来处理

 

四、字符串索引的设置

1.整个字符串建立索引和前缀索引

例子:邮箱建立索引

email:1234@qq.com、12345@qq.com

前者:alter table User add index index1(email);

后者:alter table User add index index2(email(4));

两种方式的对比,where email = "1234@qq.com"

①前者索引文件占用的磁盘空间比后者大,前者索引文件叶子节点存储全文,后者索引文件叶子节点存储前4个字符

②前者在索引记录查询到符合条件的,继续往下查,有不符合的直接结束

后者在索引记录查询到符合条件的,需要去主键索引中查询是否条件,无论符合,都需要继续往下查,直到索引记录不符合条件

因此,前者与后者相比,查询次数一般较少,但是占用空间较大。如果想使用后者,必须定义好长度,既减少额外的查询成本,又节省空间

2.选择多长的前缀建立索引

①查询这个列上不同值的数量

select count(distinct email) from User;

②依次选取不同长度的前缀值的数量

select count(distinct left(email,4)) as L4,

count(distinct left(email,5)) as L5,

count(distinct left(email,6)) as L6

from User;

总之,根据不同前缀占的比重来选择合适的前缀索引

3.前缀索引对覆盖索引的影响

select id,email from User where email='1234@qq.com';

如果email字段使用整个字符串建立的索引,则不需要回表,直接查询完成

如果email字段使用前缀索引,则需要回表,不能使用覆盖索引的优化

4.前缀区分度不大的处理方式

①倒序存储

如果字符串前缀区分度不大,最后几位区分度大,该字段可以使用倒序存储

使用之前,需要验证倒序完的前缀是否有足够的区分度(count(distinct))

②使用hash字段

表中新增一个整数字段,并在该字段上增加索引

 

相同点:

①都不支持范围查找,只能支持等值查询

不同点:

①占用空间

前者不需要额外的存储空间,后者需要新增一个整数字段

后者索引只需要4个字节,如果前者的索引前缀长度大于4字节,那么其实两者占用的空间差不多

②CPU消耗

前者每次读和写需要调用reverse函数,后者需要需要额外调用crc32()函数,相比起来,前者消耗小

③查询效率

前者本质还是前缀索引的方式,还是会增加扫描行数

后者查询更加稳定,虽然crc32()会有冲突概率,但是非常小

 

五、order by工作流程

例子:city字段为普通索引

select city,name,age from t where city='杭州' order by name limit 1000 ;

MySQL---1.索引

1.全字段排序

MySQL会给每个线程分配一块内存用于排序,称为sort buffer(server层)

①初始化sort buffer,确定放入name、city、name这三个字段

②根据索引city字段找到第一个满足city=‘杭州’条件的主键id,即ID_X

③根据上一步找到的主键id去主键索引中找到整行数据,取出city、name、age三个字段的值,存入到sort buffer

④重复2-3步骤,直到找不到满足city=’杭州‘条件

⑤对sort buffer中的数据根据name进行排序

⑥取出前1000行返回客户端

MySQL---1.索引

按照name排序这件事情,可能在sort buffer中进行,也可能需要使用外部排序,这取决于排序所需要的内存和参数sort_buffer_size

即所需要的内存大于sort_buffer_size,则使用磁盘临时文件辅助排序,反之,使用sort_buffer进行排序

外部排序一般使用归并排序算法,比如,将需要排序的数据分成12份,每一份单独在sort_buffer排序后存在这些临时文件中,然后把这12个有序文件合并成一个大的有序文件(归并排序)

2.rowid排序(即主键)

如果要查询的字段很多,sort_buffer中需要存放的字段太多,这样内存中同时存放的行数很少,要分成很多的临时文件,导致排序的性能下降

set max_length_for_sort_data=16(sort_buffer中单条记录最大字节数)

此时,如果单行的长度超过了上面这个配置,MySQL会采取另外一种策略。

①初始化sort_buffer,确定放入name和id(需要使用name进行排序、使用id最后再查询)

②从索引city字段中找到第一个满足第一个city='杭州'条件的主键id,即ID_X

③根据找到的主键id,去主键索引中找到整行数据,取出name、id两个字段,存入到sort_buffer中

④重复2-3步骤,知道找不到满足city='杭州'条件

⑤对sort buffer中的数据根据name进行排序

⑥排序完成后,取出前1000行,并按照id去主键索引中查询出city、name、age三个字段,返回客户端

MySQL---1.索引

总的来说,如果排序内存太小,才会使用rowid排序或者是使用外部文件;如果内存足够大,则会优先选择全字段排序,不需要去原表取数据。

3.如何避免排序操作

①建立city和name的联合索引,这样就不需要额外的排序操作,直接查询出前1000条记录就可以了

②建立city、name、age的联合索引,不仅避免了额外的排序操作,还避免了回表查询age的操作

 

六、索引失效

1.对索引做函数操作

对索引做函数操作,可能会破坏索引值的有序性,因此优化器就会决定放弃走树搜索功能。但是,并不意味着优化器放弃使用索引,可能走遍历主键索引,也可能遍历普通索引

例子:select count(*) from t where month(create_time)=7;(create_time索引图如下)

MySQL---1.索引

但是,对于select count(*) from t where id +1 = 10000这个SQL语句,加一操作并不会改变有序性,但是MySQL优化器还是不能用id索引来快速定位到9999这一行,

所以,需要写成where id = 10000 - 1才可以。

2.隐式类型转换

字符串和数字作比较的时候,会将字符串转换成数字

例子:select * from tradelog where traceid = 110;(traceid字段类型为varchar,普通索引)

===>select * from tradelog where CAST(traceid AS signed int) = 110;

本质上还是对索引做函数操作,因此优化器放弃走树搜索功能

例子:select * from tradelog where id = "110";(id字段类型为bight,主键索引)

===>select * from tradelog where id = CAST("110" AS signed int);

没有对索引字段做函数操作,因此优化器选择走树搜索功能

3.隐式字符编码转换

字符集utf8mb4是utf8的超集,当这两个类型的字符串做比较时,会先将utf8字符串转换成utf8mb4字符集,再进行比较

例子:trade_detail的traceid为utf8编码,trade_log的traceid为utf8mb4编码,两个表的traceid和id均为索引

①mysql> select detail.* from trade_log log, trade_detail detail where detail.tradeid=log.traceid and log.id=2; 

此时log表可以根据索引查询到id为2的数据,此时拿到了log表的traceid(utf8mb4编码),

由于 utf8 = utf8mb4,导致左边的detail.traceid需要进行函数转换编码,从而detail不走索引

===>where CONVERT(detail.tradeid USING utf8mb4) = log.traceid

②where detail.tradeid=log.traceid and detail.id=2;

此时走detail的id索引和log的traceid索引

上一篇:实验四


下一篇:再次出发!FaceBook 开源“一站式服务“时序利器 Kats !