MySQL多线程数据导入导出工具Mydumper

http://afei2.sinaapp.com/?p=456

今天在线上使用mysqldump将数据表从一个库导入到另外一个库,结果速度特别慢,印象中有个多线程的数据导入导出工具Mydumper,于是简单的调查和测试一下。
下午导数据的过程中,这个表是没有更新的,因此不需要确保多个数据之间的一致性,就简单的写个shell脚本启动多个mysqldumper来导数据,这样有几个问题:

  1. 需要处理表数据大小不均匀的问题,有的会很快结束,有的会比较慢。
  2. 如果需要保证多个导出之间的一致性时,则无法保证。
Mydumper是一个使用c语言编写的多线程导出导入工具,并且能够保证多个表之间的一致性。Mydumper已经好几篇blog在讨论:Mydumper性能测试Mydumper使用和源码分析。通过stronghearted的测试,我们看到不是线程越多越好,6个线程的时候速度最快(这个肯定跟机器的配置等诸多因素有关,只能作为一个经验值而不是绝对值,机器好的时候,线程越多越好)。

一、原理

Mydumper如何保证数据的一致性?下面是官方给出的解答,摘抄如下,主要是使用flush tables with read
lock和start transaction with consistent snapshot,在flush tables with read
lock时开启所有的线程,并且通过show master status和show slave
status获得当前的position(便于使用Mydumper重建slave以及确保多个表之间的数据一致性)。
  1. Global write lock is acquired (“FLUSH TABLES WITH READ LOCK”)
  2. Various metadata is read (“SHOW SLAVE STATUS”,”SHOW MASTER STATUS”)
  3. Other threads connect and establish snapshots (“START TRANSACTION
    WITH CONSISTENT SNAPSHOT”),On pre-4.1.8 it creates dummy InnoDB table,
    and reads from it.
  4. Once all worker threads announce the snapshot establishment, master executes “UNLOCK TABLES” and starts queueing jobs.

二、安装

  1. 下载源码,https://launchpad.net/mydumper
  2. 阅读README,根据不同的OS,安装不同的依赖
  3. cmake .
  4. make

三、使用

Mydumper不能读取/etc/my.cnf中配置文件,需要手工制定用户名、密码等等

mydumper -P 3306 -u admin -p '***' -h db23 -B meituan -T test1,test2,test3,test4,test5 -o ./
 
myloader -v 3 --threads=6 -P 3306 -u admin -p '***' -h 127.0.0.1 -S /opt/tmp/mysql3306.sock -B test  -d ./

四、测试

对mysqldump和Mydumper做了一个简单测试,测试结果如下(测试结果受环境影响,结果仅供参考):
5张表,每张表600M。
导出:
远程进行,导出两遍,取最小值。
mysqldump 37s
Mydumper 21s
导入:
mysqldump 14m4s
mydumper 9m4s

五、结论

结论:Mydumper在导出导入过程因为可以多线程进行,因此速度上肯定是优于mysqldump,可以用来替换mysqldump;Mydumper不能读取/etc/my.cnf中的配置文件,这个挺麻烦的,必须进行指定。
0
 
上一篇:mysql数据库explain命令用法详解


下一篇:[php-src]Php扩展的内存泄漏处理思路