doublewrite:
1、 Double Write介绍
• Double Write的目的是为了保证数据写入的可靠性, 避免partial write 的情况
partial write(部分写的问题)
◾ 16K的页只写入了4K,6K,8K,12K的情况下可能crash(此时是不完整、不干净的页);
◾ 不可以通过redo log进行恢复;
◾ redo恢复的前提是该页必须是完整、干净的;
为什么会发生partial write:
如果一个16K的页写磁盘,磁盘是4k当写到第二个页的时候crash
避免partial write就是在写入之前先写一下副本
• 如果innodb_page_size = 4096 4k的大小,也会有partial write的可能,因为HDD的盘是512B的写;SSD是模似HDD的写,SSD没有扇平的概念,都会有这个问题。
解决partial write的方法:
• Double Write是全局的
• 共享表空间存在一个段对象double write,然后这个段由2个区(1M)组成,默认存放在ibdata1(共享表空间) 中
• 2M固定大小(both file and memory)
• 页在刷新时,首先顺序的写入到double write
• 然后再刷回磁盘(ibd)
# 有点类似 RAID-1 的机制,总有一份数据是正确的
# 简单说来,就是在脏页刷新到磁盘前,先要有个地方记录这个脏页的副本
1. 将脏页copy到Double Write Buffer对象中,默认2M大小;
2. 将Double Write Buffer中的对象先写入到共享表空间(ibdata1)中的Double Write;
◦ 2M循环覆盖
◦ 顺序写入(一次IO)
3. 再根据(space,page_no)写入到原来的ibd文件中;
4. 如果是在写到ibdata1中的Double Write时,发生宕机;此刻原来的ibd file 仍然是完整、干净的,下次启动后是可以用redo文件进行恢复的。
5. 如果是写到ibd文件时,发生了宕机;此刻在原来的ibdata1中存在副本,可以直接覆盖到ibd文件(对应的页)中去,然后再进行redo进行恢复
redo是物理逻辑的, 物理表示记录的日志针对的是页(page) 的修改, 逻辑表示记录日志的内容是逻辑的。
mysql> show variables like "%doublewrite%";
+--------------------+-------+
| Variable_name | Value |
+--------------------+-------+
| innodb_doublewrite | ON |
+--------------------+-------+
1 row in set (0.00 sec)
2. Double Write的开销
• 假设每个页大小为16K,则2M的Double Write中存放了128个页,在使用了Double Write之后,IO从原来的128次IO变成了128 + 1 次IO,而不是128 + 128 次IO。
• Double Write的2M数据是顺序刷入磁盘的,是一次IO ,该次IO的大小为2M。
• 开启Double Write的性能降低5% ~ 25%(IO Bound场景下降的最厉害)
• slave服务器同样需要开启
3. Double Write可以关闭的前提
1. 支持原子写的设备
磁盘
◾ Funsion-IO
◾ 宝存
文件系统
◾ ZFS (Linux上不推荐使用)Oracle 没有double write功能,因为sun 支持ZFS
◾ btrfs(Linux上不推荐使用)
◾ 这个文件是使用copy on wirte 机制, 不进行原地更新,而是开辟新的位置,写成功后,将原来的页释放
◾ 本质上的思路还是保留一个副本
2. innodb_doublewrite=0 可以关闭double write功能