Partial Page Write
当前所有数据库普遍采用 Write Ahead Log
策略,即先写日志在修改磁盘数据,这样可以保证内存中丢失的数据可以通过Log恢复。
而日志记录的内容是以数据页为单位的(即数据库最小操作单元),以MySQL为例: log records contain page number for the operation as well as operation data (ie update the row) and log sequence information.
在PSQL中默认page大小为8KB
,在MySQL中默认page大小为16KB
,而操作系统一般以4KB为单位进行读写(4K对齐?),所以写完WAL日志(or redo log)后,在往磁盘写数据页的过程中如果一个
p
a
g
e
page
page 写到一半出现了问题,那么下次启动在根据 WAL 日志恢复时,再基于这个
c
o
r
r
u
p
t
e
d
p
a
g
e
corrupted \; page
corruptedpage 进行恢复肯定是不行的。这个就是
P
a
r
t
i
a
l
P
a
g
e
W
r
i
t
e
Partial \; Page \; Write
PartialPageWrite问题。该问题具体可参考:Now lets talk a bit about partial page writes
解决方式
- PSQL采用
full_page_write
这个配置来保证Partial Page Write 问题的产生,即在checkpoint之后的第一次change操作,会将整个page都写入磁盘,提高了可用性,降低了效率。 - MySQL中采用
double write
机制,即先将缓冲池的脏页复制到内存的double write buffer,然后这个buffer会分别先写入共享表空间中(顺序写,速度快)然后写入数据文件中,这个共享表空间中即是完整的页的副本,下次redo时先拷贝一份再redo。
参考:
What are advantages of each method to prevent partial page writes?