主索引/辅助索引/稠密索引/稀疏索引

主索引 & 辅助索引

主索引

定义:将主文件分块,每一块对应一个索引项。每个存储快的第一条记录,又称为锚记录。主索引是按照索引字段值进行排序的一个有序文件,通常建立在有序文件的基于主码的排序字段上。以Mysql的MyIsam存储引擎为例:

主索引/辅助索引/稠密索引/稀疏索引

辅助索引

定义:定义在主文件的任意一个或者多个非排序字段上的辅助存储结构。辅助索引通常对字段(该字段非排序)的每一个不同值有一个索引项。

主索引/辅助索引/稠密索引/稀疏索引

字段值不唯一,引入中间桶保存指针列表。如下:

主索引/辅助索引/稠密索引/稀疏索引

差别

  1. 一个主文件仅有一个主索引,但可以有多个辅助索引;

  2. 主索引通常建立在主码/排序码上面;

  3. 可以利用主索引重新组织主文件数据,辅助索引不可以。

稠密索引 & 稀疏索引

稠密(Dense)索引

在稠密索引中,文件中的每个搜索码值都对应一个索引值。也就是说,稠密索引为数据记录文件的每一条记录都设一个键-指针对。

主索引/辅助索引/稠密索引/稀疏索引

稀疏(Sparse)索引

在稀疏索引中,只为搜索码的某些值建立索引项。也就是说,稀疏索引为数据记录文件的每个存储块设一个键-指针对,存储块意味着块内存储单元连续。

主索引/辅助索引/稠密索引/稀疏索引

差别

  1. 稠密索引比稀疏索引更快的定位一条记录。
  2. 稀疏索引所占空间小,插入和删除时所需维护的开销也小。

分析

从上述定义可以发现:

  1. 辅助索引最末层通常为稀疏索引
  2. 主索引可以是稠密索引+稀疏索引

为什么辅助索引最末层通常为稠密索引

因为数据文件是按照主索引进行排序的,辅助索引若为一个其他key,索引是根据这个key排序的,而相应的对应到数据文件则不一定是有序的,如下图:

主索引/辅助索引/稠密索引/稀疏索引

稠密索引是将索引的关键字key和数据所在位置一一对应起来,而稀疏索引因为数据文件和key对应有序而可以实现1:n的效果;显然,使用辅助索引,最末层与数据文件不一定能对上顺序,故辅助索引只可能为稠密索引。

辅助索引的设计策略

根据辅助索引的key进行排序,最末层采取稠密索引,前面采取稀疏索引。

主索引/辅助索引/稠密索引/稀疏索引

重复key的处理:

  1. 重复

主索引/辅助索引/稠密索引/稀疏索引

  1. 变长记录

主索引/辅助索引/稠密索引/稀疏索引

  1. 中间桶保存指针列表

主索引/辅助索引/稠密索引/稀疏索引

reference

[1] https://www.guru99.com/indexing-in-database.html

[2] http://mlwiki.org/index.php/Secondary_Index

主索引/辅助索引/稠密索引/稀疏索引

上一篇:mr-robot


下一篇:Neutron 理解 (1): Neutron 所实现的虚拟化网络 [How Netruon Virtualizes Network]