主索引 & 辅助索引
主索引
定义:将主文件分块,每一块对应一个索引项。每个存储快的第一条记录,又称为锚记录。主索引是按照索引字段值进行排序的一个有序文件,通常建立在有序文件的基于主码的排序字段上。以Mysql的MyIsam存储引擎为例:
辅助索引
定义:定义在主文件的任意一个或者多个非排序字段上的辅助存储结构。辅助索引通常对字段(该字段非排序)的每一个不同值有一个索引项。
字段值不唯一,引入中间桶保存指针列表。如下:
差别
-
一个主文件仅有一个主索引,但可以有多个辅助索引;
-
主索引通常建立在主码/排序码上面;
-
可以利用主索引重新组织主文件数据,辅助索引不可以。
稠密索引 & 稀疏索引
稠密(Dense)索引
在稠密索引中,文件中的每个搜索码值都对应一个索引值。也就是说,稠密索引为数据记录文件的每一条记录都设一个键-指针对。
稀疏(Sparse)索引
在稀疏索引中,只为搜索码的某些值建立索引项。也就是说,稀疏索引为数据记录文件的每个存储块设一个键-指针对,存储块意味着块内存储单元连续。
差别
- 稠密索引比稀疏索引更快的定位一条记录。
- 稀疏索引所占空间小,插入和删除时所需维护的开销也小。
分析
从上述定义可以发现:
- 辅助索引最末层通常为稀疏索引
- 主索引可以是稠密索引+稀疏索引
为什么辅助索引最末层通常为稠密索引
因为数据文件是按照主索引进行排序的,辅助索引若为一个其他key,索引是根据这个key排序的,而相应的对应到数据文件则不一定是有序的,如下图:
稠密索引是将索引的关键字key和数据所在位置一一对应起来,而稀疏索引因为数据文件和key对应有序而可以实现1:n的效果;显然,使用辅助索引,最末层与数据文件不一定能对上顺序,故辅助索引只可能为稠密索引。
辅助索引的设计策略
根据辅助索引的key进行排序,最末层采取稠密索引,前面采取稀疏索引。
重复key的处理:
- 重复
- 变长记录
- 中间桶保存指针列表
reference
[1] https://www.guru99.com/indexing-in-database.html