MySQL索引

2022-06-07 13:47:39

一、介绍

　　1、什么是索引

　　　　①索引是对数据库表中一列或多列的值进行排序的一种结构，使用索引可快速访问数据库表中的特定信息。索引时一种特殊的文件（InnoDB数据表上的索引是表空间的一个组成部分），它们包含着对数据表里所有记录的引用指针。

　　　　②通俗的讲，数据库索引好比是一本书前面的目录，能加快数据库的查询速度。在没有索引的情况下，数据库会按照顺序逐条遍历记录，直至找到需要的数据为止。而有了相应的索引之后，数据库会直接在索引中查找符合条件的选项，直接在索引中定位需要的数据。

　　　　③通过不断地缩小想要获取数据的范围来筛选出最终想要的结果，同时把随机的事件变成顺序的事件，也就是说，有了这种索引机制，我们可以总是用同一种查找方式来锁定数据。

　　2、索引的原理

　　　　索引一般以文件形式存在磁盘中（也可以存于内存中），存储的索引的原理大致概括为以空间换时间，数据库在未添加索引的时候进行查询默认的是进行全量搜索，也就是进行全局扫描，有多少条数据就要进行多少次查询，然后找到相匹配的数据就把他放到结果集中，直到全表扫描完。而建立索

引之后，会将建立索引的KEY值放在一个n叉树上（BTree）。因为B树的特点就是适合在磁盘等直接存储设备上组织动态查找表，每次以索引进行条件查询时，会去树上根据key值直接进行搜索。

　　3、索引的优点：建立索引的目的是加快对表中记录的查找或排序

　　　　① 建立索引的列可以保证行的唯一性，生成唯一的rowId

　　　　② 建立索引可以有效缩短数据的检索时间

　　　　③ 建立索引可以加快表与表之间的连接

　　　　④ 为用来排序或者是分组的字段添加索引可以加快分组和排序顺序

　　4、索引的缺点

　　　　① 创建索引和维护索引需要时间成本，这个成本随着数据量的增加而加大

　　　　② 创建索引和维护索引需要空间成本，每一条索引都要占据数据库的物理存储空间，数据量越大，占用空间也越大（数据表占据的是数据库的数据空间）

　　　　③ 会降低表的增删改的效率，因为每次增删改索引需要进行动态维护，导致时间变长

二、聚簇索引与非聚簇索引

　　1、聚簇索引

　　　　①InnoDB将通过主键聚集数据，如果没有定义主键，InnoDB会选择一个唯一的非空索引代替。如果没有这样的索引，InnoDB会隐式定义一个主键来作为聚簇索引，一个表只能有一个聚簇索引

　　　　②聚簇索引可以说是一种索引，也可以说是一种数据存储的方式。它的索引号和对应的记录是存在一起的。存储数据的顺序和索引顺序一致

　　　　③优势：当主键为自增时，做按主键的范围查询

　　　　④缺点：主键如果时uuid，无法保证顺序，做范围条件查询时，开销很大

　　2、非聚簇索引

　　　　①非聚簇索引的叶子节点仍然是索引节点，只有有指向对应数据块的指针

　　　　②一张表可以最多建249个非聚簇索引，建索引需要额外的内存。索引不是越多越好。每次往表里插入数据时，要同步更新索引。所以建索引是要慎重考虑

　　　　③非聚簇索引中叶子节点的记录中需要保存主键，如需访问记录中其他部分还需要通过主键回表查询。即两次索引查找。有人疑问非聚簇索引中为什么不保存记录项的物理地址呢，当然可以记录物理地址，但是主键索引更新操作带来的索引分裂合并会改变其物理地址，这样索引的维护代价比较大，而即使回表查询，主键查找速度一般较快，影响不大。另外也可以通过覆盖索引【即索引项覆盖了select中的项】避免回表查询

三、索引的数据结构分类

　　mysql默认存储引擎innodb只显式支持B树索引，对于频繁访问的表，innodb会透明建立自适应hash索引，即在B树索引基础上建立hash索引，可以显著提高查找效率，对于客户端是透明的，不可控制的，隐式的。支持范围查询，前缀匹配查询，等值查询，可以避免排序

　　1、B+TREE，索引用的数据结构时B+TREE，B是balance，成为

　　　　①普通索引

　　　　②唯一性索引：普通索引+字段取值必须唯一

　　　　③主键自带索引

　　　　④联合索引（多列）

　　2、HASH索引

　　　　①通过hash函数将键值直接映射为物理存储地址，使时间复杂度降低到O(1)，本身存储是无序的，所以不能通过hash索引避免排序

　　　　②很快、占内存，需要算hash值。只支持包括 “=” "in "在内的等值查询，不支持范围、前缀匹配查询

　　3、Mysql采用B+TREE索引的原因

　　　　B-树和B+树的区别在于B+树所有键值全部保存在叶子节点，而B-树则不然，B-树的键值根据树的结构分布在整个树上

　　　 ①遍历方便。B+树可以将键值保存在（线性表【数组或链表】）中，遍历线性表比索引树要快，因为保存在线性表中数据存储更加密集，B-Tree分散的存储会导致更多的随机I/O,对于磁盘访问，随机I/O是比顺序I/O慢很多的，因为随机I/O需要额外的磁头寻道操作。顺序I/O有效减少寻道的次数

　　　 ②插入更新索引树时可以避免移动节点

　　　 ③遍历任何节点的时间复杂度相同，即访问路径总是从根节点到叶子节点.相比B-树,访问时间略长.所以某些高频访问的搜索采用B-树，即访问频率越高使其距离根节点越近

　　　 ④范围查找方便。对于[A,B]区间的范围查找，B-树索引可以直接找到A,B对应的线性表中节点，只需要返回区间的所有节点即为目标结果。而B-树则稍显麻烦需要继续遍历索引树

四、Mysql索引管理

　　1、MySQL的索引分类

　　　　① 普通索引：index：加速查找

　　　　② 唯一索引：unique：加速查找+约束（唯一）

　　　　③ 主键索引：primary key ：加速查找+约束（不为空且唯一）　　

　　　　④ 联合索引　　

　　　　　　-primary key(id,name)：联合主键索引　　

　　　　　　-unique(id,name)：联合唯一索引　　

　　　　　　-index(id,name)：联合普通索引　　

　　　　 ⑤ 全文索引fulltext：用于搜索很长一篇文章的时候，效果最好

　　2、索引创建的语句

CREATE TABLE table_name[col_name data type][unique|fulltext][index|key][index_name](col_name[length])[asc|desc]

unique|fulltext为可选参数，分别表示唯一索引、全文索引
index和key为同义词，两者作用相同，用来指定创建索引
col_name为需要创建索引的字段列，该列必须从数据表中该定义的多个列中选择
index_name指定索引的名称，为可选参数，如果不指定，默认col_name为索引值
length为可选参数，表示索引的长度，只有字符串类型的字段才能指定索引长度
asc或desc指定升序或降序的索引值存储

　　3、索引的创建

　　　（1）普通索引（单列索引）：单列索引是最基本的索引，它没有任何限制。

　　　　① 直接创建索引：CREATE INDEX index_name ON table_name(col_name);

　　　　② 修改表结构的方式添加索引：ALTER TABLE table_name ADD INDEX index_name(col_name);

　　　　③ 创建表的时候同时创建索引

CREATE TABLE 表名 (
                  字段名1  数据类型 [完整性约束条件…],
                  字段名2  数据类型 [完整性约束条件…],
                  [UNIQUE | FULLTEXT | SPATIAL ]   INDEX | KEY
                  [索引名]  (字段名[(长度)]  [ASC |DESC]) 
                  );

CREATE TABLE `news` (
    `id` int(11) NOT NULL AUTO_INCREMENT ,
    `title` varchar(255)  NOT NULL ,
    `content` varchar(255)  NULL ,
    `time` varchar(20) NULL DEFAULT NULL ,
    PRIMARY KEY (`id`),
    INDEX index_name (title(255))
)

　　（2）复合索引（组合索引）：复合索引是在多个字段上创建的索引。复合索引遵守“最左前缀”原则，即在查询条件中使用了复合索引的第一个字段，索引才会被使用。因此，在复合索引中索引列的顺序至关重要。

　　　　① 创建复合索引：create index index_name on table_name(col_name1,col_name2,...);

　　　　② 修改表结构的方式添加索引：alter table table_name add index index_name(col_name,col_name2,...);

　　（3）唯一索引：唯一索引和普通索引类似，主要的区别在于，唯一索引限制列的值必须唯一，但允许存在空值（只允许存在一条空值）

　　　　如果在已经有数据的表上添加唯一性索引的话：

如果添加索引的列的值存在两个或者两个以上的空值，则不能创建唯一性索引会失败。（一般在创建表的时候，要对自动设置唯一性索引，需要在字段上加上 not null）
如果添加索引的列的值存在两个或者两个以上的null值，还是可以创建唯一性索引，只是后面创建的数据不能再插入null值，并且严格意义上此列并不是唯一的，因为存在多个null值。

对于多个字段创建唯一索引规定列值的组合必须唯一。
比如：在order表创建orderId字段和 productId字段的唯一性索引，那么这两列的组合值必须唯一！

“空值” 和”NULL”的概念： 
1：空值是不占用空间的 .
2: MySQL中的NULL其实是占用空间的.

长度验证：注意空值的之间是没有空格的。

> select length(‘‘),length(null),length(‘ ‘);
+------------+--------------+-------------+
| length(‘‘) | length(null) | length(‘ ‘) |
+------------+--------------+-------------+
|          0 |         NULL |           1 |
+------------+--------------+-------------+

　　　　① 创建唯一索引

# 创建单个索引
CREATE UNIQUE INDEX index_name ON table_name(col_name);

# 创建多个索引
CREATE UNIQUE INDEX index_name on table_name(col_name,...);

　　　　② 修改表结构

# 单个
ALTER TABLE table_name ADD UNIQUE index index_name(col_name);

# 多个
ALTER TABLE table_name ADD UNIQUE index index_name(col_name,...);

　　　　③ 创建表的时候直接指定索引

CREATE TABLE `news` (
    `id` int(11) NOT NULL AUTO_INCREMENT ,
    `title` varchar(255)  NOT NULL ,
    `content` varchar(255)  NULL ,
    `time` varchar(20) NULL DEFAULT NULL ,
    PRIMARY KEY (`id`),
    UNIQUE index_name_unique(title)
)

　　（4）主键索引：主键索引是一种特殊的唯一索引，一个表只能有一个主键，不允许有空值。一般是在建表的时候同时创建主键索引

　　　　① 主键索引(创建表时添加)

CREATE TABLE `news` (
    `id` int(11) NOT NULL AUTO_INCREMENT ,
    `title` varchar(255)  NOT NULL ,
    `content` varchar(255)  NULL ,
    `time` varchar(20) NULL DEFAULT NULL ,
    PRIMARY KEY (`id`)
)

　　　　② 主键索引(创建表后添加)

alter table tbl_name add primary key(col_name);

CREATE TABLE `order` (
    `orderId` varchar(36) NOT NULL,
    `productId` varchar(36)  NOT NULL ,
    `time` varchar(20) NULL DEFAULT NULL
)

alter table `order` add primary key(`orderId`);

　　（5）全文索引

　　　　在一般情况下，模糊查询都是通过 like 的方式进行查询。但是，对于海量数据，这并不是一个好办法，在 like “value%” 可以使用索引，但是对于 like “%value%” 这样的方式，执行全表查询，这在数据量小的表，不存在性能问题，但是对于海量数据，全表扫描是非常可怕的事情,所以 like 进行模糊匹配性能很差。

　　　　这种情况下，需要考虑使用全文搜索的方式进行优化。全文搜索在 MySQL 中是一个 FULLTEXT 类型索引。FULLTEXT 索引在 MySQL 5.6 版本之后支持 InnoDB，而之前的版本只支持 MyISAM 表。

全文索引主要用来查找文本中的关键字，而不是直接与索引中的值相比较。fulltext索引跟其它索引大不相同，它更像是一个搜索引擎，而不是简单的where语句的参数匹配。fulltext索引配合match against操作使用，而不是一般的where语句加like。目前只有char、varchar，text 列上可以创建全文索引。

　　　　小技巧：在数据量较大时候，先将数据放入一个没有全局索引的表中，然后再用CREATE index创建fulltext索引，要比先为一张表建立fulltext然后再将数据写入的速度快很多。

　　 ① 创建表的适合添加全文索引

CREATE TABLE `news` (
    `id` int(11) NOT NULL AUTO_INCREMENT ,
    `title` varchar(255)  NOT NULL ,
    `content` text  NOT NULL ,
    `time` varchar(20) NULL DEFAULT NULL ,
     PRIMARY KEY (`id`),
    FULLTEXT (content)
)

　　② 修改表结构添加全文索引：ALTER TABLE table_name ADD FULLTEXT index_fulltext_content(col_name)

　　③ 直接创建索引：CREATE FULLTEXT INDEX index_fulltext_content ON table_name(col_name)

　　4、索引的查询和删除

索引的查看:
show indexes from `表名`;
或者
show keys from `表名`;
 
索引的删除：
DROP INDEX index_name ON table_name;
或者
alter table `表名` drop index 索引名;

五、正确使用索引

　　1、覆盖索引

#分析
select * from s1 where id=123;
该sql命中了索引，但未覆盖索引。
利用id=123到索引的数据结构中定位到该id在硬盘中的位置，或者说再数据表中的位置。
但是我们select的字段为*，除了id以外还需要其他字段，这就意味着，我们通过索引结构取到id还不够，
还需要利用该id再去找到该id所在行的其他字段值，这是需要时间的，很明显，如果我们只select id，
就减去了这份苦恼，如下
select id from s1 where id=123;
这条就是覆盖索引了，命中索引，且从索引的数据结构直接就取到了id在硬盘的地址，速度很快

　　2、联合索引

　　3、索引合并

#索引合并：把多个单列索引合并使用

#分析：
组合索引能做到的事情，我们都可以用索引合并去解决，比如
create index ne on s1(name,email);#组合索引
我们完全可以单独为name和email创建索引

组合索引可以命中：
select * from s1 where name=‘egon‘ ;
select * from s1 where name=‘egon‘ and email=‘adf‘;

索引合并可以命中：
select * from s1 where name=‘egon‘ ;
select * from s1 where email=‘adf‘;
select * from s1 where name=‘egon‘ and email=‘adf‘;

乍一看好像索引合并更好了：可以命中更多的情况，但其实要分情况去看，如果是name=‘egon‘ and email=‘adf‘,
那么组合索引的效率要高于索引合并，如果是单条件查，那么还是用索引合并比较合理

六、使用索引应注意的规则

　　1、查看索引的使用情况：

show status like ‘Handler_read%’;

handler_read_key:这个值越高越好，越高表示使用索引查询到的次数
handler_read_rnd_next:这个值越高，说明查询低效

　　2、使用索引时，有以下一些技巧和注意事项：

　　　　(1) 越小的数据类型通常更好：越小的数据类型通常在磁盘、内存和CPU缓存中都需要更少的空间，处理起来更快。

　　　　(2) 简单的数据类型更好：整型数据比起字符，处理开销更小，因为字符串的比较更复杂。在MySQL中，应该用内置的日期和时间数据类型，而不是用字符串来存储时间；以及用整型数据类型存储IP地址。

　　　　(3) 尽量避免NULL：应该指定列为NOT NULL，除非你想存储NULL。在MySQL中，含有空值的列很难进行查询优化，因为它们使得索引、索引的统计信息以及比较运算更加复杂。你应该用0、一个特殊的值或者一个空串代替空值。

　　　　(4) 索引不会包含有NULL值的列。

　　　　注：如果是同样的sql如果在之前能够使用到索引，那么现在使用不到索引，以下几种主要情况:

　　　　　　① 随着表的增长，where条件出来的数据太多，大于15%，使得索引失效（会导致CBO计算走索引花费大于走全表）

　　　　　　② 统计信息失效：需要重新搜集统计信息

　　　　　　③ 索引本身失效：需要重建索引

#1.最左前缀匹配原则，非常重要的原则，
create index ix_name_email on s1(name,email,)
- 最左前缀匹配：必须按照从左到右的顺序匹配
select * from s1 where name=‘egon‘; #可以
select * from s1 where name=‘egon‘ and email=‘asdf‘; #可以
select * from s1 where email=‘alex@oldboy.com‘; #不可以
mysql会一直向右匹配直到遇到范围查询(>、<、between、like)就停止匹配，
比如a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)顺序的索引，
d是用不到索引的，如果建立(a,b,d,c)的索引则都可以用到，a,b,d的顺序可以任意调整。

#2.=和in可以乱序，比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可以任意顺序，mysql的查询优化器
会帮你优化成索引可以识别的形式

#3.尽量选择区分度高的列作为索引,区分度的公式是count(distinct col)/count(*)，
表示字段不重复的比例，比例越大我们扫描的记录数越少，唯一键的区分度是1，而一些状态、
性别字段可能在大数据面前区分度就是0，那可能有人会问，这个比例有什么经验值吗？使用场景不同，
这个值也很难确定，一般需要join的字段我们都要求是0.1以上，即平均1条扫描10条记录

#4.索引列不能参与计算，保持列“干净”，比如from_unixtime(create_time) = ’2014-05-29’
就不能使用到索引，原因很简单，b+树中存的都是数据表中的字段值，
但进行检索时，需要把所有元素都应用函数才能比较，显然成本太大。
所以语句应该写成create_time = unix_timestamp(’2014-05-29’);

　　3、常见索引失效的情况：使用explain查看索引是否生效

创建一个students表：
其中stud_id为主键！

DROP TABLE IF EXISTS `students`;
CREATE TABLE `students` (
  `stud_id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(50) NOT NULL,
  `email` varchar(50) NOT NULL,
  `phone` varchar(1) NOT NULL,
  `create_date` date DEFAULT NULL,
  PRIMARY KEY (`stud_id`)
)

INSERT INTO `learn_mybatis`.`students` (`stud_id`, `name`, `email`, `phone`, `create_date`) VALUES (‘1‘, ‘admin‘, ‘student1@gmail.com‘, ‘18729902095‘, ‘1983-06-25‘);
INSERT INTO `learn_mybatis`.`students` (`stud_id`, `name`, `email`, `phone`, `create_date`) VALUES (‘2‘, ‘root‘, ‘74298110186@qq.com‘, ‘2‘, ‘1983-12-25‘);
INSERT INTO `learn_mybatis`.`students` (`stud_id`, `name`, `email`, `phone`, `create_date`) VALUES (‘3‘, ‘110‘, ‘7429811086@qq.com‘, ‘3dsad‘, ‘2017-04-28‘);

　　① 在where后使用or，导致索引失效（尽量少用or）

简单实例演示：
创建两个普通索引，

    CREATE INDEX index_name_email ON students(email);
    CREATE INDEX index_name_phone ON students(phone);

使用下面查询sql，

# 使用了索引
EXPLAIN select * from students where stud_id=‘1‘  or phone=‘18729902095‘
# 使用了索引
EXPLAIN select * from students where stud_id=‘1‘  or email=‘742981086@qq.com‘

#--------------------------

# 没有使用索引
EXPLAIN select * from students where phone=‘18729902095‘ or email=‘742981086@qq.com‘

# 没有使用索引
EXPLAIN select * from students where stud_id=‘1‘  or phone=‘222‘ or email=‘742981086@qq.com‘

　　② 使用like ，like查询是以%开头

在1的基础上，还是使用 index_name_email 索引。

使用下面查询sql

# 使用了index_name_email索引
EXPLAIN select * from students where email like ‘742981086@qq.com%‘

# 没有使用index_name_email索引，索引失效
EXPLAIN select * from students where email like ‘%742981086@qq.com‘

# 没有使用index_name_email索引，索引失效
EXPLAIN select * from students where email like ‘%742981086@qq.com%‘

　　③ 复合索引遵守“最左前缀”原则，即在查询条件中使用了复合索引的第一个字段，索引才会被使用

删除1的基础创建的 index_name_email 和 index_name_phone 索引。

重新创建一个复合索引：

    create index index_email_phone on students(email,phone);

使用下面查询sql

# 使用了 index_email_phone 索引
EXPLAIN select * from students where email=‘742981086@qq.com‘ and  phone=‘18729902095‘

# 使用了 index_email_phone 索引
EXPLAIN select * from students where phone=‘18729902095‘ and  email=‘742981086@qq.com‘

# 使用了 index_email_phone 索引
EXPLAIN select * from students where email=‘742981086@qq.com‘ and name=‘admin‘

# 没有使用index_email_phone索引，复合索引失效
EXPLAIN select * from students where phone=‘18729902095‘ and name=‘admin‘

　　④ 如果列类型是字符串，那一定要在条件中将数据使用引号引用起来,否则不使用索引

给name创建一个索引！

    CREATE INDEX index_name ON students(name);

# 使用索引
EXPLAIN select * from students where name=‘110‘

# 没有使用索引
EXPLAIN select * from students where name=110

　　⑤ 使用in导致索引失效

# 使用索引
EXPLAIN select * from students where name=‘admin‘

# 没有使用索引
EXPLAIN SELECT * from students where name in (‘admin‘)

　　⑥ DATE_FORMAT()格式化时间，格式化后的时间再去比较，可能会导致索引失效。

删除 students 上的创建的索引！重新在create_date创建一个索引！

    CREATE INDEX index_create_date ON students(create_date);

# 使用索引
EXPLAIN SELECT * from students where create_date >= ‘2010-05-05‘

# 没有使用索引
EXPLAIN SELECT * from students where DATE_FORMAT(create_date,‘%Y-%m-%d‘) >= ‘2010-05-05‘

　　⑦ 对于order by、group by 、 union、 distinc 中的字段出现在where条件中时，才会利用索引！

MySQL索引

码农公寓

一、介绍

1、什么是索引

2、 索引的原理

3、索引的优点：建立索引的目的是加快对表中记录的查找或排序

4、索引的缺点

二、聚簇索引与非聚簇索引

1、聚簇索引

2、非聚簇索引

三、索引的数据结构分类

四、Mysql索引管理

1、MySQL的索引分类

2、索引创建的语句

3、索引的创建

（1）普通索引（单列索引）：单列索引是最基本的索引，它没有任何限制。

（2）复合索引（组合索引）：复合索引是在多个字段上创建的索引。复合索引遵守“最左前缀”原则，即在查询条件中使用了复合索引的第一个字段，索引才会被使用。因此，在复合索引中索引列的顺序至关重要。

（3）唯一索引：唯一索引和普通索引类似，主要的区别在于，唯一索引限制列的值必须唯一，但允许存在空值（只允许存在一条空值）

（4）主键索引：主键索引是一种特殊的唯一索引，一个表只能有一个主键，不允许有空值。一般是在建表的时候同时创建主键索引

（5）全文索引

4、索引的查询和删除

五、正确使用索引

1、覆盖索引

2、联合索引

3、索引合并

六、使用索引应注意的规则

1、查看索引的使用情况：

3、常见索引失效的情况：使用explain查看索引是否生效

相关文章

　　1、什么是索引

　　2、索引的原理

　　3、索引的优点：建立索引的目的是加快对表中记录的查找或排序

　　4、索引的缺点

　　1、聚簇索引

　　2、非聚簇索引

　　1、MySQL的索引分类

　　2、索引创建的语句

　　3、索引的创建

　　　（1）普通索引（单列索引）：单列索引是最基本的索引，它没有任何限制。

　　（2）复合索引（组合索引）：复合索引是在多个字段上创建的索引。复合索引遵守“最左前缀”原则，即在查询条件中使用了复合索引的第一个字段，索引才会被使用。因此，在复合索引中索引列的顺序至关重要。

　　（3）唯一索引：唯一索引和普通索引类似，主要的区别在于，唯一索引限制列的值必须唯一，但允许存在空值（只允许存在一条空值）

　　（4）主键索引：主键索引是一种特殊的唯一索引，一个表只能有一个主键，不允许有空值。一般是在建表的时候同时创建主键索引

　　（5）全文索引

　　4、索引的查询和删除

　　1、覆盖索引

　　2、联合索引

　　3、索引合并

　　1、查看索引的使用情况：

　　3、常见索引失效的情况：使用explain查看索引是否生效