需要在mysql中插入2000万条记录,用insert语句插入速度很有限,每秒钟几百条,放在hadoop集群上跑也是这个速度,可能是数据库的问题了,网上看到sql server和oracle的insert速度也不是很快。比较简单的优化方法如下:
1、在一条insert语句中插入多条记录
INSERT INTO tablename (field0, field1, ...) VALUES
(value0, value1, ...),
(value0, value1, ...),
(value0, value1, ...),
...
(value0, value1, ...)
这样插入速度可以提高很多倍,但还是不够块,对于2000万条记录,每秒钟一两千条的插入速度还是太慢。
2、从文本文件导入数据
mysql可以从文本文件直接导入记录,不过需要文本文件是行记录,并且每个字段之间用相同的字符隔开、每行之间也用相同的字符隔开。
写了个程序把文本文件的格式处理一下,就可以在mysql客户端使用如下语句导入数据了:
mysql> LOAD DATA LOCAL INFILE 'fileName' INTO TABLE 'tableName' FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';
其中'\t'和'\n'分别是字段和行的分隔符,在不同的情况下可能不一样。
用这种方式,感觉导入的速度主要和文件的大小有关,和记录的条数关系不太(可能是2000万的记录还不够多吧。。)
导入一个800MB的文本文件(2000万行),在单机上预处理用了3分钟,导入数据库用了7分钟(机器配置是i5-2400CPU、8GB内存、硬盘读取速度大约90MB/S)
下面还要处理一个11GB的文本文件,这回估计要用集群跑了。