MySQL 数据库区别于其他数据库的最重要的一个特点就是其插件式的表存储引擎。MySQL 插件式的存储引擎架构提供了一系列标准的管理和服务支持, 这些标准与存储引擎本身无关, 可能是每个数据库系统本身都必需的, 如 SQL 分析器和优化器等, 而存储引擎是底层物理结构和实际文件读写的实现, 每个存储引擎开发者可以按照自己的意愿来进行开发。 需要特别注意的是, 存储引擎是基于表的, 而不是数据库。
插件式存储引擎的好处是, 每个存储引擎都有各自的特点,能够根据具体的应用建立不同存储引擎表。 由于 MySQL 数据库的开源特性, 用户可以根据 MySQL预定义的存储引擎接口编写自己的存储引擎。 若用户对某一种存储引擎的性能或功能不满意, 可以通过修改源码来得到想要的特性, 这就是开源带给我们的方便与力量。
由于 MySQL 数据库开源特性, 存储引擎可以分为 MySQL 官方存储引擎和第三方存储引擎。 有些第三方存储引擎很强大, 如大名鼎鼎的 InnoDB 存储引擎(最早是第三方存储引擎, 后被 Oracle 收购), 其应用就极其广泛, 甚至是 MySQL 数据库 OLTP(Online Transaction Processing 在线事务处理)应用中使用最广泛的存储引擎.
MySQL 官方引擎概要
1. InnoDB 存储引擎
InnoDB 是 MySQL 的默认事务型引擎, 也是最重要、 使用最广泛的存储引擎。它被设计用来处理大量的短期(short-lived)事务, 短期事务大部分情况是正常提交的, 很少会被回滚。 InnoDB 的性能和自动崩溃恢复特性, 使得它在非事务型存储的需求中也很流行。 除非有非常特别的原因需要使用其他的存储引擎, 否则应该优先考虑 InnoDB 引擎。 如果要学习存储引擎, InnoDB 也是一个非常好的值得花最多的时间去深入学习的对象, 收益肯定比将时间平均花在每个存储引擎的学习上要高得多。 所以 InnoDB 引擎也将是我们学习的重点。
2. MylSAM 存储引擎
在 MySQL 5.1 及之前的版本, MyISAM 是默认的存储引擎。 MyISAM 提供了大量的特性, 包括全文索引、 压缩、 空间函数(GIS) 等, 但 MyISAM 不支持事务和行级锁, 而且有一个毫无疑问的缺陷就是崩溃后无法安全恢复。尽管MyISAM引擎不支持事务、 不支持崩溃后的安全恢复, 但它绝不是一无是处的。 对于只读的数据, 或者表比较小、可以忍受修复(repair)操作, 则依然可以继续使用 MyISAM(但请不要默认使用 MyISAM, 而是应当默认使用 InnoDB)。 但是 MyISAM 对整张表加锁, 而不是针对行。 读取时会对需要读到的所有表加共享锁,写入时则对表加排他锁。 MyISAM 很容易因为表锁的问题导致典型的的性能问题。
3. Mrg_MylSAM
Merge 存储引擎, 是一组 MyIsam 的组合, 也就是说, 他将 MyIsam 引擎的多个表聚合起来, 但是他的内部没有数据, 真正的数据依然是 MyIsam 引擎的表
中, 但是可以直接进行查询、 删除更新等操作。
4. Archive 引擎
Archive 存储引擎只支持 INSERT 和 SELECT 操作, 在 MySQL 5.1 之前也不支持索引。 Archive 引擎会缓存所有的写并利用 zlib 对插入的行进行压缩, 所以比MyISAM 表的磁盘 I/O 更少。 但是每次 SELECT 查询都需要执行全表扫描。 所以Archive 表适合日志和数据采集类应用, 这类应用做数据分析时往往需要全表扫描。 或者在一些需要更快速的 INSERT 操作的场合下也可以使用。 Archive 引擎不是一个事务型的引擎, 而是一个针对高速插入和压缩做了优化的简单引擎。
5. Blackhole 引擎
Blackhole 引擎没有实现任何的存储机制, 它会丢弃所有插入的数据, 不做任何保存。 但是服务器会记录 Blackhole 表的日志, 所以可以用于复制数据到备
库, 或者只是简单地记录到日志。 这种特殊的存储引擎可以在一些特殊的复制架构和日志审核时发挥作用。 但这种引擎在应用方式上有很多问题, 因此并不推荐。
6. CSV 引擎
CSV 引擎可以将普通的 CSV 文件(逗号分割值的文件) 作为 MySQL 的表来处理, 但这种表不支持索引。 CSV 引擎可以在数据库运行时拷入或者拷出文件。 可以将 Excel 等的数据存储为 CSV 文件, 然后复制到 MySQL 数据目录下, 就能在MySQL 中打开使用。 同样, 如果将数据写入到一个 CSV 引擎表, 其他的外部程序也能立即从表的数据文件中读取 CSV 格式的数据。 因此 CSV 引擎可以作为一种数据交换的机制, 非常有用。
7. Federated 引擎
Federated 引擎是访问其他 MySQL 服务器的一个代理, 它会创建一个到远程MySQL 服务器的客户端连接, 并将查询传输到远程服务器执行, 然后提取或者发送需要的数据。 最初设计该存储引擎是为了和企业级数据库如 Microsoft SQL Server 和 Oracle 的类似特性竞争的, 可以说更多的是一种市场行为。 尽管该引擎看起来提供了一种很好的跨服务器的灵活性, 但也经常带来问题, 因此默认是禁用的。
8. Memory 引擎
如果需要快速地访问数据, 并且这些数据不会被修改, 重启以后丢失也没有关系, 那么使用 Memory 表(以前也叫做 HEAP 表) 是非常有用的。 Memory 表至少比 MyISAM 表要快一个数量级, 因为每个基于 MEMORY 存储引擎的表实际对应一个磁盘文件。 该文件的文件名与表名相同, 类型为 frm 类型。 该文件中只存储表的结构。 而其数据文件, 都是存储在内存中, 这样有利于数据的快速处理,提高整个表的效率, 不需要进行磁盘 I/O。 所以 Memory 表的结构在重启以后还会保留, 但数据会丢失。
Memroy 表在很多场景可以发挥好的作用:
- 用于查找(lookup) 或者映射(mapping) 表, 例如将邮编和州名映射的表。
- 用于缓存周期性聚合数据(periodically aggregated data)的结果。
- 用于保存数据分析中产生的中间数据。
Memory 表支持 Hash 索引, 因此查找操作非常快。 虽然 Memory 表的速度非常快, 但还是无法取代传统的基于磁盘的表。 Memroy 表是表级锁, 因此并发写入的性能较低。 它不支持 BLOB 或 TEXT 类型的列, 并且每行的长度是固定的,所以即使指定了 VARCHAR 列, 实际存储时也会转换成 CHAR, 这可能导致部分内存的浪费。
9. NDB 集群引擎
使用 MySQL 服务器、 NDB 集群存储引擎, 以及分布式的、 share-nothing 的、容灾的、 高可用的 NDB 数据库的组合, 被称为 MySQL 集群((MySQL Cluster).
值得了解的第三方引擎
1. Percona 的 XtraDB 存储引擎
基于 InnoDB 引擎的一个改进版本, 已经包含在 Percona Server 和 MariaDB中, 它的改进点主要集中在性能、 可测量性和操作灵活性方面。 XtraDB 可以作为InnoDB 的一个完全的替代产品, 甚至可以兼容地读写 InnoDB 的数据文件, 并支持 InnoDB 的所有查询。
2. TokuDB 引擎
使用了一种新的叫做分形树(Fractal Trees)的索引数据结构。 该结构是缓存无关的, 因此即使其大小超过内存性能也不会下降, 也就没有内存生命周期和碎片的问题。 TokuDB 是一种大数据(Big Data)存储引擎, 因为其拥有很高的压缩比,可以在很大的数据量上创建大量索引。 现在该引擎也被 Percona 公司收购。
Tips: 分形树, 是一种写优化的磁盘索引数据结构。 在一般情况下, 分形树的写操作(Insert/Update/Delete) 性能比较好, 同时它还能保证读操作近似于B+树的读性能。 据测试结果显示, TokuDB 分形树的写性能优于 InnoDB 的 B+树,读性能略低于 B+树。 分形树核心思想是利用节点的 MessageBuffer 缓存更新操作, 充分利用数据局部性原理, 将随机写转换为顺序写, 这样极大的提高了随机写的效率。
3. Infobright
MySQL 默认是面向行的, 每一行的数据是一起存储的, 服务器的查询也是以行为单位处理的。 而在大数据量处理时, 面向列的方式可能效率更高, 比如 HBASE就是面向列存储的。
Infobright 是最有名的面向列的存储引擎。 在非常大的数据量(数十 TB)时,该引擎工作良好。 Infobright 是为数据分析和数据仓库应用设计的。 数据高度压缩, 按照块进行排序, 每个块都对应有一组元数据。 在处理查询时, 访问元数据可决定跳过该块, 甚至可能只需要元数据即可满足查询的需求。 但该引擎不支持索引, 不过在这么大的数据量级, 即使有索引也很难发挥作用, 而且块结构也是一种准索引 (quasi-index)。 Infobright 需要对 MySQL 服务器做定制, 因为一些地方需要修改以适应面向列存储的需要。 如果查询无法在存储层使用面向列的模式执行, 则需要在服务器层转换成按行处理, 这个过程会很慢。 Infobright 有社区版和商业版两个版本。
4. 其他
针对图操作, 全文检索, MySQL 下都有对应的存储引擎, 大家可以自行查阅
选择合适的引擎
这么多存储引擎, 我们怎么选择?大部分情况下, InnoDB 都是正确的选择,所以在 MySQL 5.5 版本将 InnoDB 作为默认的存储引擎了。 对于如何选择存储引擎, 可以简单地归纳为一句话:“除非需要用到某些 InnoDB 不具备的特性, 并且没有其他办法可以替代, 否则都应该优先选择 InnoDB 引擎” 。 比如, MySQL 中只有 MyISAM 支持地理空间搜索。
当然, 如果不需要用到 InnoDB 的特性, 同时其他引擎的特性能够更好地满足需求, 也可以考虑一下其他存储引擎。 举个例子, 如果不在乎可扩展能力和并发能力, 也不在乎崩溃后的数据丢失问题, 却对 InnoDB 的空间占用过多比较敏感, 这种场合下选择 MyISAM 就比较合适。
除非万不得已, 否则建议不要混合使用多种存储引擎, 否则可能带来一系列复杂的问题, 以及一些潜在的 bug 和边界问题。 存储引擎层和服务器层的交互已经比较复杂, 更不用说混合多个存储引擎了。 至少, 混合存储对一致性备份和服务器参数配置都带来了一些困难。
表引擎的转换
有很多种方法可以将表的存储引擎转换成另外一种引擎。 每种方法都有其优点和缺点。 常用的有三种方法
1. ALTER TABLE
将表从一个引擎修改为另一个引擎最简单的办法是使用 ALTER TABLE 语句。下面的语句将 mytable 的引擎修改为 InnoDB :
mysql> ALTER TABLE mytable ENGINE = InnoDB;
上述语法可以适用任何存储引擎。 但需要执行很长时间, 在实现上, MySQL会按行将数据从原表复制到一张新的表中, 在复制期间可能会消耗系统所有的
I/O 能力, 同时原表上会加上读锁。 所以, 在繁忙的表上执行此操作要特别小心。如果转换表的存储引擎, 将会失去和原引擎相关的所有特性。
2. 导出与导入
还可以使用 mysqldump 工具将数据导出到文件, 然后修改文件中 CREATE TABLE 语句的存储引擎选项, 注意同时修改表名, 因为同一个数据库中不能存在相同的表名, 即使它们使用的是不同的存储引擎。
3. CREATE 和 SELECT
先创建一个新的存储引擎的表, 然后利用 INSERT…SELECT 语法来导数据:
mysql>CREATE TABLE innodb_table LIKE myisam_table;
mysql>ALTER TABLE innodb_table ENGINE=InnoDB;
mysql>INSERT INTO innodb_table SELECT * FROM myisam_table;
如果数据量很大, 则可以考虑做分批处理, 针对每一段数据执行事务提交操作。
检查我的 MySQL 的引擎
看我的 MySQL 现在已提供什么存储引擎:
mysql> show engines;
看我的 MySQL 当前默认的存储引擎:
mysql> show variables like '%storage_engine%';
MyISAM 和 InnoDB 比较
对比项 | MyISAM | InnoDB |
---|---|---|
主外键 | 不支持 | 支持 |
事务 | 不支持 | 支持 |
行表锁 | 表锁,即使操作一条记录也会锁住整个表 不适合高并发的操作 | 行锁,操作时只锁住一行,不对其他行有影响 适合高并发的操作 |
缓存 | 只缓存索引,不缓存真实数据 | 不仅缓存索引而且缓存真实数据,对内存要求较高,而且内存大小对性能有决定性的影响 |
表空间 | 小 | 大 |
关注点 | 性能 | 事务 |
默认安装 | Y | Y |