--MySQL数据库IO问题
----------------------2014/05/25
看http://www.mysqlperformanceblog.com 的时候,发现Percona Server已经发布到 5.1.58了,其中有一个重大的性能改进在flush 日志文件和doublewrite buffer的时候,使用fdatasync()代替fsync(),具体描述如下:
fsync() has been replaced with fdatasync() to improve perfomance where possible. The former is intended to sync the metadata of the file also (size, name, access time, etc.), but for the transaction log and the doublewrite buffer, such sync of metadata isn’t needed. Bug Fixed: #803270 (Yasufumi Kinoshita).
下面来介绍下fsync()和 fdatasync()函数吧:
传统的UNIX实现在内核中设有缓冲区高速缓存或页面高速缓存(OS Cache),大多数磁盘 I/O都通过缓冲进行。当将数据写入文件时,内核通常先将该数据复制到其中一个缓冲区中,如果该缓冲区尚未写满,则并不将其排入输出队列,而是等待其写满或者当内核需要重用该缓冲区以便存放其他磁盘块数据时,再将该缓冲排入输出队列,然后待其到达队首时,才进行实际的I/O操作。这种输出方式被称为延迟写 (delayed write)。
延迟写减少了磁盘读写次数,但是却降低了文件内容的更新速度,使得欲写到文件中的数据在一段时间内并没有写到磁盘上。当系统发生故障时,这种延迟可能造成文件更新内容的丢失。为了保证磁盘上实际文件系统与缓冲区高速缓存中内容的一致性,UNIX系统提供了 sync、fsync和fdatasync三个函数。
sync函数只是将所有修改过的块缓冲区排入写队列,然后就返回,它并不等待实际写磁盘操作结束。应该说,速度最快。
通常称为update的系统守护进程会周期性地(一般每隔30秒)调用sync函数。这就保证了定期冲洗内核的块缓冲区。命令sync(1)也调用sync函数。
fsync函数只对由文件描述符filedes指定的单一文件起作用,并且等待写磁盘操作结束,然后返回。fsync可用于数据库这样的应用程序,这种应用程序需要确保将修改过的块立即写到磁盘上。速度最慢。
fdatasync函数类似于fsync,但它只影响文件的数据部分。而除数据外,fsync还会同步更新文件的属性。速度介于二者之间。
那么Innodb中,配置参数innodb_flush_method有三个值,分别是fdatasync,O_DSYNC和O_DIRECT,其中fdatasync是默认值。它们控制了InnoDB刷新日志和数据的模式,这个参数对MySQL的性能有较大的影响。
fdatasync:
InnoDB使用fsync()函数去更新日志和数据文件。
O_DSYNC:
InnoDB使用O_SYNC模式打开并更新日志文件,用fsync()函数去更新数据文件。
O_DIRECT:
InnoDB使用O_DIRECT模式打开数据文件,日志文件不使用O_DIRECT标记,用fsync()函数去更新日志和数据文件。
我们目前的线上库,该配置参数设置的是O_DIRECT,数据文件的读/写操作都会跳过OS cache,直接在device(disk)上读/写。因为没有了OS cache,所以会O_DIRECT降低文件的顺序读写的效率(因为是直接对磁盘进行操作)。如果不使用O_DIRECT,操作系统*开辟大量的Cache来缓存读写数据,不但没有提高读写性能,反而造成读写性能急剧下降(Flush的话,相当于要先Flush到缓存,再在一定得条件下把缓存的结果Flush到磁盘,相当于写了两遍),而且buffer pool的数据缓存和OS Cache都缓存了同样的数据,造成了Buffer的Double(浪费!),因此有可能造成性能的大幅下降。
使用O_DIRECT选项,通常需要带有写缓存的RAID卡,并且设置为Write-Back策略(就是写入会在RAID卡缓存上进行缓冲,不直接写到硬盘),因为这是典型的唯一能保持好性能的方法。
日志缓冲IO
日志缓冲必须被双信道持久化存储,已确保提交的事务完全被持久化,此动作方式可有参数innodb_flush_log_at_trx_commit变量来控制。
把日志缓冲写到日志文件,并且每秒刷新一次,但是事务提交时不做任何事。
将日志缓冲写到日志文件,并且每次事务提交都刷新到持久化存储。
每次提交时把日志缓冲写到日志文件,但是并不刷新。
-----------------------------------------------------这是提到的刷新,就是使用我们上文提到的刷新策略。
具体参考下图: