【巨杉数据库SequoiaDB】巨杉Tech | 巨杉数据库数据高性能数据导入迁移实践

2021-11-03 05:01:12

SequoiaDB 一款自研金融级分布式数据库产品，支持标准SQL和分布式事务功能、支持复杂索引查询，兼容 MySQL、PGSQL、SparkSQL等SQL访问方式。SequoiaDB 在分布式存储功能上，较一般的大数据产品提供更多的数据切分规则，包括：水平切分、范围切分、主子表切分和多维切分方式，用户可以根据不用的场景选择相应的切分方式，以提高系统的存储能力和操作性能。

为了能够提供简单便捷的数据迁移和导入功能，同时更方便地与传统数据库在数据层进行对接，巨杉数据库支持多种方式的数据导入，用户可以根据自身需求选择最适合的方式加载数据。

本文主要介绍巨杉数据库集中常见的高性能数据导入方法，其中包括巨杉工具矩阵中的 Sdbimprt导入工具，以及使用SparkSQL, MySQL和原生API 接口进行数据导入，一共四种方式。

Sdbimprt工具导入

sdbimprt 是 SequoiaDB 的数据导入工具，是巨杉数据库工具矩阵中重要组成之一，它可以将 JSON 格式或 CSV 格式的数据导入到 SequoiaDB 数据库中。

关于工具说明与参数介绍，请参考：http://doc.sequoiadb.com/cn/sequoiadb-cat_id-1479195620-edition_id-0。

一、示例

下面简单介绍一下如何使用 sdbimprt 工具将 csv 文件导入到 SequoiaDB 集合空间 site 的集合 user_info 中：1. 数据文件名称为“user.csv”，内容如下：

“Jack”,18,”China”“Mike”,20,”USA”

2.导入命令

sdbimprt --hosts=localhost:11810 --type=csv --file=user.csv -c site -l user_info --fields='name string default "Anonymous", age int, country'

--hosts：指定主机地址（hostname:svcname）
--type：导入数据格式，可以是csv或json
--file：要导入的数据文件名称
-c(--csname)：集合空间的名字
-l(--clname)：集合的名字
--fields：指定导入数据的字段名、类型、默认值

二、导入性能优化
下面说明使用 sdbimprt 工具时如何提升导入性能：1. 使用 --hosts 指定多个节点导入数据时，尽量指定多个 coord 节点的地址，用“,”分隔多个地址，sdbimprt 工具会把数据随机发到不同机器上的 coord，起到负载均衡的作用（如图1）。

2. 使用 --insertnum(-n) 参数在导入数据时，使用 --insertnum(-n) 参数，可以实现批量导入，减少数据发送时的网络交互的次数，从而加快数据导入速度。取值范围为1~100000，默认值为100。 3. 使用 --jobs(-j) 参数指定导入连接数（每个连接一个线程），从而实现多线程导入。 4. 切分文件sdbimprt 在导入数据时支持多线程并发导入，但读数据时是单线程读取，随着导入线程数的增加，数据读取就成为了性能瓶颈。这种情况下，可以将一个大的数据文件切分成若干个小文件，然后每个小文件对应启动一个 sdbimprt 进程并发导入，从而提升导入性能。如果集群内有多个协调节点，分布在不同的机器上，那么可以在多台机器上分别启动 sdbimprt 进程，并且每个 sdbimprt 连接机器本地的协调节点，这样数据发送给协调节点时避免了网络传输（如图2）。

5. 数据加载完后再建索引对于导入数据量大，且索引多的表，建议先把索引删除，待到数据导入完成后再重建索引，这样有利于加快数据导入。在数据导入的过程中，如果目标表存在大量的索引，数据库除了写入数据外，还需要写入索引文件，这会降低导入数据的性能。此方式对提升其它方式的数据导入速度同样适用。

SparkSQL 导入

SparkSQL 可以方便的读取多种数据源，通过 SequoiaDB 提供的 Spark 连接器，可以使用 SparkSQL 向 SequoiaDB 中写入数据或从中读取数据

关于 SparkSQL 如何与 SequoiaDB 连接，请参考：http://doc.sequoiadb.com/cn/sequoiadb-cat_id-1432190712-edition_id-0。

一、示例

下面举例说明如何将 HDFS 中的 csv 文件通过 SparkSQL 导入 SequoiaDB 集合中，以及如何优化导入性能。 1、将 HDFS 中 csv 文件映射成 spark 的临时表

CREATE TABLE   hdfstable           USING  org.apache.spark.sql.execution.datasources.csv.CSVFileFormatOPTIONS (  path "hdfs://usr/local/data/test.csv",   header "true")

2. 将 SDB 的集合映射成 spark 的临时表

create temporary table sdbtable (a string,b int,c date) using com.sequoiadb.spark OPTIONS ( host 'sdbserver1:11810,sdbserver2:11810,sdbserver3:11810', username 'sdbadmin',password 'sdbadmin',collectionspace 'sample', collection 'employee',bulksize '500');

3. 导入

sparkSession.sql("insert into sdbtable select * from hdfstable");

二、导入性能优化
SparkSQL 数据写入有以下两个参数可以优化：

host

尽量指定多个 coord 节点的地址，用“,”分隔多个地址，数据会随机发到不同 coord 节点上，起到负载均衡的作用。

bulksize

该参数默认值为500，代表连接器向 SequoiaDB 写入数据时，以 500 条记录组成一个网络包，再向 SequoiaDB 发送写入请求，可以根据数据的实际大小调整 bulksize 的值。

MySQL 导入

SequoiaDB 以存储引擎的方式与 MySQL 对接，使得用户可以通过 MySQL 的 SQL 接口访问 SequoiaDB 中的数据，并进行增、删、改、查等操作。

关于如何与MySQL对接，请参考：

http://doc.sequoiadb.com/cn/sequoiadb-cat_id-1521595283-edition_id-302。

一、示例

使用 mysql 向 SequoiaDB 导入数据有以下几种方式：1. SQL 文件导入

mysql> source /opt/table1.sql

2. CSV 文件导入。mysql 中提供了 load data infile 语句来插入数据：

mysql> load data local infile '/opt/table2.csv' into table table2 fields terminated by ',' enclosed by '"' lines terminated by '\n';

二、导入性能优化

提升MySQL的导入性能有如下建议：1. sequoiadb_conn_addr 指定多个地址引擎配置参数“sequoiadb_conn_addr”尽量指定多个coord节点的地址，用“,”分隔多个地址，数据会随机发到不同coord节点上，起到负载均衡的作用。
2. 开启 bulkinsert引擎配置参数“sequoiadb_use_bulk_insert”指定是否启用批量插入，默认值为“ON”，表示启用。配置参数“sequoiadb_bulk_insert_size”指定批量插入时每批的插入记录数，默认值2000。可以通过调整bulkinsert size提高插入性能。
3. 切分文件可以将一个大的数据文件切分为若干个小文件，然后为每个小文件启动一个导入进程，多个文件并发导入，提高导入速度。

API 接口导入

SequoiaDB 提供了插入数据的 API 接口，即“insert”接口。insert 接口会根据传入的参数不同而使用不同的插入方式，如果每次只传入一条记录，则接口也是将记录逐条的发送到数据库引擎，如果每次传入一个包含多条记录的集合或数组，则接口会一次性把这批记录发送到数据库引擎，最后通过引擎一条一条写入数据库中。
因此，insert 接口的两种插入方式的区别在于发送数据到数据库引擎这一过程，一次传入多条记录这种方式称为“bulkinsert”，相对来说会减少数据发送时的网络交互的次数，插入性能更佳。
小结如何达到最大数据加载速度，是数据库迁移/数据导入中常遇到的问题，本文从以下四个方面分别介绍了 SequoiaDB 数据迁移/导入过程中性能最优化的方法：1）基于巨杉工具矩阵 sdbimprt 导入可以采用修改参数 host 指定多个节点、修改连接数、切分文件、修改参数 insertnum、重建索引等等对数据导入速度进行优化。2）基于 MySQL 导入可以采用修改参数 host 地址及 bulksize 进行优化。3）基于 Spark 导入可以采用指定多个协调节点IP、设置 bulkinsert 参数、切分文件进行优化。 4）基于API接口进行优化可以采用 bulkinsert 批量插入数据，减少网络交互。
大家可以参考本文的数据导入方法进行实践验证，从传统数据库迁移到巨杉数据库SequoiaDB。

码农公寓

Sdbimprt工具导入

一、示例

SparkSQL 导入

一、示例

MySQL 导入

一、示例

二、导入性能优化

API 接口导入

相关文章