由于公司要组建一个数据中心,简而言之就是把各个地方的数据都同步到一个地方,做BI建模和数据分析。
一般来说这种需求是由hadoop来实现的,但由于预算不够。。所以,来个low点的办法吧
以下主要是讲rds与mysql主从的搭建
通常来讲,mysql主从分为binlog主从,gtid模式的主从,我这篇主要是讲GTID的主从部署模式(当然里面也是需要binlog的)
1、在ECS上搭建mysql(这块不需要说多少了吧,配置好第三方yum源,直接yum installvim /etc/my.cnf
[client]
mysqladmin=/usr/bin/mysqladmin
port = 13307 #定义端口
default-character-set=utf8 #定义数据库字符集 socket = /data/var/run/mysqld/mysqld13307.sock #定义sock文件,如果是多实例,可以直接mysql -S 指定sock文件链接数据库 [mysqld]
port = 13307 #端口
skip-external-locking #下面的配置我也不是很懂,大体都是优化配置的地方,可以直接复制我的配置文件
key_buffer_size = 256M
max_allowed_packet = 200M
table_open_cache = 40000
table_definition_cache = 40000
sort_buffer_size = 20M
net_buffer_length = 102400
read_buffer_size = 20M
read_rnd_buffer_size = 32M
bulk_insert_buffer_size = 50M
myisam_sort_buffer_size = 8M
max_connections = 2500
max_tmp_tables = 3200
lower_case_table_names = 1
thread_cache_size=64
query_cache_size=200M
query_cache_limit = 10M
join_buffer_size=20M
character-set-server=utf8
max_heap_table_size = 64M
thread_cache_size = 20
thread_concurrency = 32
transaction_isolation = READ-COMMITTED
back_log = 600
skip-name-resolve
open_files_limit = 250000
max_heap_table_size = 512G
tmp_table_size = 1G
server-id = 4 #注意,这里的serverid 不能是1,因为默认master节点的serverid是1,因此后面的id,就是不能为1的任何数字 gtid_mode=ON #gtid模式要开启
log_slave_updates=true #要开启
enforce-gtid-consistency=true #必须写
binlog_format=row #一般来说格式都是row
sync-master-info=1 #写1就可以 innodb_buffer_pool_size = 3G
innodb_log_file_size=1G
innodb_flush_log_at_trx_commit=2
innodb_write_io_threads = 16
innodb_file_io_threads=4
innodb_read_io_threads = 16
innodb_log_buffer_size = 20M
innodb_max_dirty_pages_pct = 80
innodb_lock_wait_timeout = 500
innodb_flush_method = O_DIRECT
innodb_io_capacity=2000
innodb_io_capacity_max=6000
innodb_lru_scan_depth=2000
innodb_thread_concurrency = 0
innodb_additional_mem_pool_size=16M
innodb_autoinc_lock_mode = 2
innodb_file_per_table = 1
innodb_buffer_pool_instances=2
innodb_open_files = 2048
wait_timeout=28800
interactive_timeout= 600 #从下面开始配置就不需要怎么解释了吧,会运维的都明白,和上面也有一些重复的地方
#basedir = /usr
#password = your_password
# Here follows entries for some specific programs
basedir = /usr
datadir = /data/mysql_data13307
log-error = /data/logs/mysql13307_error.log
pid-file = /data/var/run/mysqld/mysqld13307.pid
socket = /data/var/run/mysqld/mysqld13307.sock
log-bin = /data/logs/binlog13307/binlog
binlog_cache_size = 512M
binlog_format = MIXED
max_binlog_cache_size = 512M
max_binlog_size = 200M
relay-log-index = /data/logs/relaylog13307/relaylog
relay-log-info-file = /data/logs/relaylog13307/relaylog
relay-log = /data/logs/relaylog13307/relaylog
expire_logs_days = 7
innodb_flush_log_at_trx_commit=0
sync_binlog=0
slave_skip_errors = 1062,1032
#下面是指定哪些数据库需要被同步,哪些不需要被同步,一般来讲,只有数据的库才需要被同步,用户信息一般不同步。
# The MySQL server
replicate-do-db = aaa
replicate-do-db = bbbb
replicate-do-db = ccccc
replicate-do-db = 12ead
replicate-do-db = naiuqn
replicate-ignore-db = mysql
replicate-ignore-db = information_schema
replicate-ignore-db = performance_schema #slow_query_log = 1
#slow_query_log_file=/data/mysql/logs/slowquery.log
#long_query_time=2
#log_queries_not_using_indexes [mysqldump]
quick
max_allowed_packet = 16M
[mysql]
no-auto-rehash [myisamchk]
key_buffer_size = 20M
sort_buffer_size = 20M
read_buffer = 2M
write_buffer = 2M [mysqlhotcopy]
interactive-timeout
2、上面的步骤配置完了以后
将RDS的白名单,设置好,允许ECS远程连接RDS,然后对各个表的数据进行dump
一般来讲,高权限用户只能逐个的mysqldump各个数据库
mysqldump -h rds内网地址 -u用户 -p --database 数据库名 >> /tmp/数据库名1.sql
mysqldump -h rds内网地址 -u用户 -p --database 数据库名 >> /tmp/数据库名2.sql
mysqldump -h rds内网地址 -u用户 -p --database 数据库名 >> /tmp/数据库名3.sql
这一步主要操作是将现阶段的数据库都备份出来,然后执行下面的操作。
mysql> show master status\G #请注意,下面的信息全都要留好,因为后面会在自建数据库中需要指定这些数据
*************************** 1. row ***************************
File: mysql-bin.001461
Position: 15351962
Binlog_Do_DB:
Binlog_Ignore_DB:
Executed_Gtid_Set: 3fb72bdd-02d5-11e6-a554-6c92bf2c0469:1-1751591,
4e5c900f-02d5-11e6-a555-ecf4bbded8cc:1-54349982,
ac5fa92d-5b22-11e8-afcd-7cd30abead5e:1-135523638,
d3615618-7f50-11e6-9110-d89d672b73e0:1-4
1 row in set (0.01 sec)
在主库上我们需要操作的就这么多,下面我们来配置从库
3、在从库中,将上面的各个数据库导入
#先查看dump出来的sql里面有没有create语句,如果有的话,忽略这些create语句。
create database 数据库1;
create database 数据库2;
create database 数据库3; use 数据库1;
source /tmp/数据库1.sql
use 数据库2;
source /tmp/数据库2.sql
use 数据库3;
source /tmp/数据库3.sql #source语句执行不报错,就算导入成功了。
然后我们进行chang master 语句
change master to MASTER_HOST='RDS内网地址',
MASTER_USER='slave',
MASTER_PASSWORD='slave用户的密码',
MASTER_LOG_FILE='在rds上show master status的File列内容',
MASTER_LOG_POS=15351962; #这个log pos是从上面show master status中获取
然后直接执行以下命令
1.start slave;#注意,如果之前进行过changemaster 这块start slave的时候就会报如下错误。
ERROR 1776 (HY000): Parameters MASTER_LOG_FILE, MASTER_LOG_POS, RELAY_LOG_FILE and RELAY_LOG_POS cannot be set when MASTER_AUTO_POSITION is active.
需要执行以下语句(如果不报错,请忽略这一步)
change master to master_auto_position=0;
2.show slave status;
#当看到这两项为YES的时候,证明主从复制已经成功,自己进行测试即可
Slave_IO_Running:YES Slave_SQL_Running:YES