我讲到过利用rsync实现数据的镜像和备份,但是要实现数据的实时备份,单独靠rsync还不能实现,本文就讲述下如何实现数据的实时备份。
一、rsync的优点与不足
与传统的cp、tar备份方式相比,rsync具有安全性高、备份迅速、支持增量备份等优点,通过rsync可以解决对实时性要求不高的数据备份需求,例如定期的备份文件服务器数据到远端服务器,对本地磁盘定期做数据镜像等。
随着应用系统规模的不断扩大,对数据的安全性和可靠性也提出的更好的要求,rsync在高端业务系统中也逐渐暴露出了很多不足,首先,rsync同步数据时,需要扫描所有文件后进行比对,进行差量传输。如果文件数量达到了百万甚至千万量级,扫描所有文件将是非常耗时的。而且正在发生变化的往往是其中很少的一部分,这是非常低效的方式。其次,rsync不能实时的去监测、同步数据,虽然它可以通过linux守护进程的方式进行触发同步,但是两次触发动作一定会有时间差,这样就导致了服务端和客户端数据可能出现不一致,无法在应用故障时完全的恢复数据。基于以上原因,rsync+inotify组合出现了!
二、 初识inotify
Inotify
是一种强大的、细粒度的、异步的文件系统事件监控机制,linux内核从2.6.13起,加入了Inotify支持,通过Inotify可以监控文件系统中添加、删除,修改、移动等各种细微事件,利用这个内核接口,第三方软件就可以监控文件系统下文件的各种变化情况,而inotify-tools就是这样的一个第三方软件。
在上面章节中,我们讲到,rsync可以实现触发式的文件同步,但是通过crontab守护进程方式进行触发,同步的数据和实际数据会有差异,而inotify可以监控文件系统的各种变化,当文件有任何变动时,就触发rsync同步,这样刚好解决了同步数据的实时性问题。
三、 安装inotify工具inotify-tools
由于inotify特性需要Linux内核的支持,在安装inotify-tools前要先确认Linux系统内核是否达到了2.6.13以上,如果Linux内核低于2.6.13版本,就需要重新编译内核加入inotify的支持,也可以用如下方法判断,内核是否支持inotify:
[root@localhost webdata]# uname -r
2.6.18-164.11.1.el5PAE
[root@localhost webdata]# ll /proc/sys/fs/inotify
总计 0
-rw-r--r-- 1 root root 0 04-13 19:56 max_queued_events
-rw-r--r-- 1 root root 0 04-13 19:56 max_user_instances
-rw-r--r-- 1 root root 0 04-13 19:56 max_user_watches
如果有上面三项输出,表示系统已经默认支持inotify,接着就可以开始安装inotify-tools了。
可以到http://inotify-tools.sourceforge.net/下载相应的inotify-tools版本,然后开始编译安装:
[root@localhost ~]# tar zxvf inotify-tools-3.14.tar.gz
root@localhost ~]# cd inotify-tools-3.14
[root@localhost inotify-tools-3.14]# ./configure
[root@localhost inotify-tools-3.14]# make
[root@localhost inotify-tools-3.14]# make install
[root@localhost inotify-tools-3.14]# ll /usr/local/bin/inotifywa*
-rwxr-xr-x 1 root root 37264 04-14 13:42 /usr/local/bin/inotifywait
-rwxr-xr-x 1 root root 35438 04-14 13:42 /usr/local/bin/inotifywatch
inotify-tools安装完成后,会生成inotifywait和inotifywatch两个指令,其中,inotifywait用于等待文件或文件集上的一个特定事件,它可以监控任何文件和目录设置,并且可以递归地监控整个目录树。
inotifywatch用于收集被监控的文件系统统计数据,包括每个inotify事件发生多少次等信息。
四、 inotify相关参数
inotify定义了下列的接口参数,可以用来限制inotify消耗kernel memory的大小。由于这些参数都是内存参数,因此,可以根据应用需求,实时的调节其大小。下面分别做简单介绍。
/proc/sys/fs/inotify/max_queued_evnets
表示调用inotify_init时分配给inotify instance中可排队的event的数目的最大值,超出这个值的事件被丢弃,但会触发IN_Q_OVERFLOW事件。
/proc/sys/fs/inotify/max_user_instances
表示每一个real user ID可创建的inotify instatnces的数量上限。
/proc/sys/fs/inotify/max_user_watches
表示每个inotify instatnces可监控的最大目录数量。如果监控的文件数目巨大,需要根据情况,适当增加此值的大小,例如:
echo 30000000 > /proc/sys/fs/inotify/max_user_watches
五、 inotifywait相关参数
Inotifywait是一个监控等待事件,可以配合shell脚本使用它,下面介绍一下常用的一些参数:
-m, 即--monitor,表示始终保持事件监听状态。
-r, 即--recursive,表示递归查询目录。
-q, 即--quiet,表示打印出监控事件。
-e, 即--event,通过此参数可以指定要监控的事件,常见的事件有modify、delete、create、attrib等。
更详细的请参看man inotifywait。
六、 rsync+inotify企业应用案例
案例描述
这是一个CMS内容发布系统,后端采用负载均衡集群部署方案,有一个负载调度节点和三个服务节点以及一个内容发布节点构成,内容发布节点负责将用户发布的数据生成静态页面,同时将静态网页传输到三台服务节点,而负载调度节点负责将用户请求根据负载算法调度到相应的服务节点,实现用户访问。用户要求在前端访问到的网页数据始终是最新的、一致的。
解决方案
为了保证用户访问到的数据一致性和实时性,必须保证三个服务节点与内容发布节点的数据始终是一致的,这就需要通过文件同步工具来实现,这里采用rsync,同时又要保证数据是实时的,这就需要inotify,即:使用inotify监视内容发布节点文件的变化,如果文件有变动,那么就启动rsync,将文件实时同步到三个服务节点。
系统环境
这里所有服务器均采用Linux操作系统,系统内核版本与节点信息如表1 所示:
表1
1 安装rsync与inotify-tools
inotify-tools是用来监控文件系统变化的工具,因此必须安装在内容发布节点,服务节点无需安装inotify-tools,另外需要在web1、web2、web3、webserver节点上安装rsync,由于安装非常简单,这里不在讲述。
在这个案例中,内容发布节点(即server)充当了rsync客户端的角色,而三个服务节点充当了rsync服务器端的角色,整个数据同步的过程,其实就是一个从客户端向服务端推送数据的过程。这点与上面我们讲述的案例刚好相反。
2 在三个服务节点配置rsync
这里给出三个服务节点的rsync配置文件,以供参考,读者可根据实际情况自行修改。
Web1节点rsyncd.conf配置如下:
uid = nobody
gid = nobody
use chroot = no
max connections = 10
strict modes = yes
pid file = /var/run/rsyncd.pid
lock file = /var/run/rsync.lock
log file = /var/log/rsyncd.log
[web1]
path = /web1/wwwroot/
comment = web1 file
ignore errors
read only = no
write only = no
hosts allow = 192.168.12.134
hosts deny = *
list = false
uid = root
gid = root
auth users = web1user
secrets file = /etc/web1.pass
Web2节点rsyncd.conf配置如下:
uid = nobody
gid = nobody
use chroot = no
max connections = 10
strict modes = yes
pid file = /var/run/rsyncd.pid
lock file = /var/run/rsync.lock
log file = /var/log/rsyncd.log
[web2]
path = /web2/wwwroot/
comment = web2 file
ignore errors
read only = no
write only = no
hosts allow = 192.168.12.134
hosts deny = *
list = false
uid = root
gid = root
auth users = web2user
secrets file = /etc/web2.pass
Web3节点rsyncd.conf配置如下:
uid = nobody
gid = nobody
use chroot = no
max connections = 10
strict modes = yes
pid file = /var/run/rsyncd.pid
lock file = /var/run/rsync.lock
log file = /var/log/rsyncd.log
[web3]
path = /web3/wwwroot/
comment = web3 file
ignore errors
read only = no
write only = no
hosts allow = 192.168.12.134
hosts deny = *
list = false
uid = root
gid = root
auth users = web3user
secrets file = /etc/web3.pass
在三台服务节点rsyncd.conf文件配置完成后,依次启动rsync守护进程,接着将rsync服务加入到自启动文件中:
echo “/usr/local/bin/rsync --daemon” >>/etc/rc.local
到此为止,三个web服务节点已经配置完成。
3 配置内容发布节点
配置内容发布节点的主要工作是将生成的静态网页实时的同步到集群中三个服务节点,这个过程可以通过一个shell脚本来完成,脚本内容大致如下:
#!/bin/bash
host1=192.168.12.131
host2=192.168.12.132
host3=192.168.12.133
src=/web/wwwroot/
dst1=web1
dst2=web2
dst3=web3
user1=web1user
user2=web3user
user3=web3user
/usr/local/bin/inotifywait -mrq --timefmt '%d/%m/%y %H:%M' --format '%T %w%f%e' -e modify,delete,create,attrib $src \
| while read files
do
/usr/bin/rsync -vzrtopg --delete --progress --password-file=/etc/server.pass $src$user1@$host1::$dst1
/usr/bin/rsync -vzrtopg --delete --progress --password-file=/etc/server.pass $src$user2@$host2::$dst2
/usr/bin/rsync -vzrtopg --delete --progress --password-file=/etc/server.pass $src$user3@$host3::$dst3
echo "${files} was rsynced" >>/tmp/rsync.log 2>&1
done
脚本相关解释如下:
--timefmt:指定时间的输出格式。
--format:指定变化文件的详细信息。
这两个参数一般配合使用,通过指定输出格式,输出类似与:
15/04/10 00:29 /web/wwwroot/ixdba.shDELETE,ISDIR was rsynced
15/04/10 00:30 /web/wwwroot/index.htmlMODIFY was rsynced
15/04/10 00:31 /web/wwwroot/pcre-8.02.tar.gzCREATE was rsynced
这个脚本的作用就是通过inotify监控文件目录的变化,进而触发rsync进行同步操作,由于这个过程是一种主动触发操作,通过系统内核完成的,所以,比起那些遍历整个目录的扫描方式,效率要高很多。
有时会遇到这样的情况:向inotify监控的目录(这里是/web/wwwroot/)写入一个很大文件时,由于写入这个大文件需要一段时间,此时inotify就会持续不停的输出该文件被更新的信息,
这样就会持续不停的触发rsync去执行同步操作,占用了大量系统资源,那么针对这种情况,最理想的做法是等待文件写完后再去触发rsync同步。
在这种情况下,可以修改inotify的监控事件,即:“-e close_write,delete,create,attrib”。
接着,将这个脚本命名为inotifyrsync.sh,放到/web/wwwroot目录下,然后给定可执行权限,放到后台运行:
chmod 755 /web/wwwroot/inotifyrsync.sh
/web/wwwroot/inotifyrsync.sh &
最后,将此脚本加入系统自启动文件:
echo “/web/wwwroot/inotifyrsync.sh &”>>/etc/rc.local
这样就完成了内容发布节点的所有配置工作。
4 测试rsync+inotify实时同步功能
所有配置完成后,可以在网页发布节点的/web/wwwroot目录下添加、删除或者修改某个文件,然后到三个服务节点对应的目录查看文件是否跟随网页发布节点的/web/wwwroot目录下文件发生变化,如果你看到三个服务节点对应的目录文件跟着内容发布节点目录文件同步变化,那么我们这个业务系统就配置成功了。
Rsync企业实战之自动异地备份
认真的测试过网上的大多数文章和版本,真正能一次性测试通过的文章太少了,需要反复的推敲,反复的查阅资料,才能真正的测试成功,所以,在此背景下,总结了Rsync,加上自己的理解分享出来;
1、 原理篇
Rsync,故名思议,是一个远程数据同步工具,可以镜像整个目录树和文件系统,也可以保持源文件的权限,时间和软硬链接,可以优化数据,文件重复数据的删除,也可以在LAN/WAN之间快速的同步多台主机的数据,这主要得益于Rsync的压缩和Rsync的核心算法,其算法,是本地和远程两台主机之间的文件达到同步并保持一致,并且只传送两个文件的不同部分,而不是整个数据进行传送,所以,速度非常快;
一个Rsync server能够同时备份多个客户端数据,也可以一个客户端备份多个Rsync server的数据;
Rsync 支持搭配scp,ssh和daemon模式,默认端口是873,当第一次连接的时候,会对数据进行完整备份,之后的所有备份,都是进行增量备份,只备份又变化的数据;
Rsync只支持单向备份,不支持双向,如果需要双向同步的,可以使用Unison;如果需要实时同步的,可以结合Rsync+inotify;
Rsync服务以只读方式提供要备份的数据,避免破坏生产环境的数据;
在这里,有必要对Rsync的核心算法,进行讲解:
假定在名为 α 和 β 的两台计算机之间同步相似的文件 A 与 B,其中 α 对文件A拥有访问权,β 对文件 B 拥有访问权。并且假定主机 α 与 β 之间的网络带宽很小。那么 Rsync 算法将通过下面的五个步骤来完成:
β 将文件 B 分割成一组不重叠的固定大小为 S 字节的数据块。最后一块可能会比 S 小。
β 对每一个分割好的数据块执行两种校验:一种是32位的滚动弱校验,另一种是128位的 MD4 强校验。
β 将这些校验结果发给 α。
α 通过搜索文件 A 的所有大小为 S 的数据块(偏移量可以任选,不一定非要是 S 的倍数),来寻找与文件B 的某一块有着相同的弱校验码和强校验码的数据块。这项工作可以借助滚动校验的特性很快完成。
α 发给 β 一串指令来生成文件 A 在 β 上的备份。这里的每一条指令要么是对文件 B 经拥有某一个数据块而不须重传的证明,要么是一个数据块,这个数据块肯定是没有与文件 B 的任何一个数据块匹配上的。
Rsync适用于linux、solaris和bsd,在windows平台下,有cwRsync。
本文,将以Linux的Rsync和以window的cwRsync为例讲解。
2、 Rsync服务端
2.1、 安装
源码安装
下载rsync服务端程序,
tar zxvf rsync-2.6.9.tar.gz
cd rsync-2.6.9
./configure --prefix=/usr/local/rsync
make
make install
rpm安装
yum install rsync
本文以yum来安装
2.2、 服务器运行模式
模式选择
对于负载比较重的,选择独立服务启动
对于负载比较轻的,选择以xinet.d启动,选择此模式,记得要安装xinet.d (yum install xinet.d)
独立运行模式
/usr/bin/rsync --daemon --config=/etc/rsyncd.conf (本例选择此方法)
如果需要系统开机启动,可以把上面命令加入到/etc/rc.local文件中。
2.3、 服务器配置
创建配置文件和口令文件
touch /etc/rsyncd.conf 主要配置文件
touch /etc/rsync.pas 口令文件,此文件需要注意客户端和服务器端的格式,后续会讲解
关于配置文件rsyncd.conf讲解
Rsync的配置文件,分为两个部分,全局配置和模块配置,
#全局设置
uid = root 指定模块以root用户来传输文件,如果匿名用户的话,这里填写nobody
gid = root 指定模块以root用户组来传输文件,如果匿名传输的话,这里填写nobody
use chroot = yes 设置为YES,表示在传输文件之前,定位到根目录下,即PATH指定的目录,这样做,主要是出于安全考虑
pid file = /var/run/rsyncd.pid Rsync守护进程把其PID写入的文件
lock file = /var/run/rsync.lock 指定支持max connections的锁文件
log file = /var/log/rsyncd.log 指定Rsync守护进程产生的日志文件,而不是传送给syslog
#模块设置
[Jindie] 模块名称,后续上传下载文件配置时,直接使用此名称名来指定
path = /sda1/JDdatabase 指定此模块的根目录,即文件上传下载都是在此目录下进行
ignore errors 指定在 rsync 服务器上运行 delete 操作时是否忽略 I/O 错误
read only = false 指定是否允许上传,false代表允许上传。
write only = false 指定是否允许下载,false代表允许下载。
list = true 指定当客户请求列出可以使用的模块,该模块是否被列出。如果false,可以创建隐藏的模块。
hosts allow = 192.168.1.65 指定哪些客户端可以访问连接此模块,可以指定单个IP,整个网段,比如此例为单个IP
hosts deny = 0.0.0.0/0 指定哪些客户端不允许连接此模块,此例为0.0.0.0/0网段,代表整个网络
通常表示客户端表示方式,有如下:
单个IP:192.168.1.65
网段IP:192.168.1.0/24
可解析的主机地址:www.baidu.com
域内主机:*.wine9.com
所有主机:*
多个列表项,要用空格隔开;
auth users = xy 指定认证用户名,通常由空格或者逗号分隔用户名列表,只有这些用户可以连接此模块,用户名和密码,以明文形式,保存在口令文件中
syslog facility = local5 指定日志等级,一般指发送给rsyslog的日志等级;
secrets file = /etc/rsync.pas 指定Rsync认证口令文件,只有配置了auth users,此配置才生效,这里要注意客户端和服 务器端的配置格式。
ignore nonreadable 指定 rysnc 服务器完全忽略那些用户没有访问权限的文件,这对于在需要备份的目录中有些不应该被备份者获取的文件时非常有意义
timeout 600 设置客户端连接超时时间,确保服务器不会永远等待一个奔溃的客户端。
dont compress=*.gz 指定哪些文件在传输之前,不需要进行压缩的文件。
max connections = 4 指定此模块最大的并发连接数为4,超过的告知随后再试
exclude指定多个由空格隔开的多个文件或目录(相对路径),并将其添加到 exclude 列表中。这等同于在客户端命令中使用 –exclude 来指定模式。
Exclude from指定一个包含 exclude 规则定义的文件名,服务器从该文件中读取 exclude 列表定义
include指定多个由空格隔开的多个文件或目录(相对路径),并将其添加到 include 列表中。这等同于在客户端命令中使用 –include 来指定模式
Include from指定一个包含 include 规则定义的文件名,服务器从该文件中读取 include 列表定义
2.4、 建立Rsync口令文件
创建口令文件
touch /etc/rsync.pas #口令文件,保存Rsync用户和密码验证信息,不需要是系统账号;
vi /etc/rsync.pas
xy:abc123 #格式为 用户名:口令,此账号不用是系统账号
注意与后面的客户端口令文件的格式进行比较,相较两者不同点,这一点,有很多童鞋容易弄错了,重要的事情说三遍,注意格式,注意格式,注意格式。
2.5、 口令文件权限
口令文件,需要设置口令文件权限,这一步同样非常重要,Rsync对权限的要求还是比较敏感的。
#chown root:root /etc/rsync.pas #root:root 指的是当前启动此服务的用户,并设置为属主
#chmod 600 /etc/rsync.pas #指定启动此Rsync服务的用户的权限为只读权限,也就是前面提到的属主的权限。
3、 Rsync客户端
客户端本例,选择windows的cwrsync工具,安装不用多说。
3.1、 创建口令文件
新建rsync.pas文件,添加内如如下:
因为我使用的用户名是xy,此设置的密码,必须跟服务器端rsync.pas口令文件中设置的密码一样,比如本例口令为abc123;
那么,本例中设置为:
abc123
3.2、 口令文件权限
windows口令文件的权限一定要设置正确,否则验证无法通过,应将口令文件c:\rsync.pas的权限加入系统登录的账号读取权限以及设置其为该文件的所有者(这里跟服务器端有点不同,正常来说,无论windows还是liunx,服务器端的这个用户名,应该是启动Rsync服务的用户名,但是对于windows客户端来说,一般都是系统登录账号)
定位到cwRsync客户端安装目录,C:\Program Files (x86)\cwRsync\bin
chmod 600 /cygdrive/c/rsync.pas
chown administrator /cygdrive/c/rsync.pas #如果没有chown.exe文件,可以从服务器端的安装目录的bin目录下直接复制过来就可以使用,
注:Rsync对路径的书写格式,与windows不同,它是遵循,postfix书写格式,
3.3、 同步文件
Rsync同步的六种格式
当Rsync已经做好服务器端和客户端的配置之后,接下来就是通过Rsync命令,像服务器发起命令请求,来完成文件的同步操作,Rsync的功能非常强大,提供了六种格式,来支持Rsync的六种工作方式;
rsync [OPTION]... SRC DEST
rsync [OPTION]... SRC [USER@]HOST:DEST
rsync [OPTION]... [USER@]HOST:SRC DEST
rsync [OPTION]... [USER@]HOST::SRC DEST
rsync [OPTION]... SRC [USER@]HOST::DEST
rsync [OPTION]... rsync://[USER@]HOST[:PORT]/SRC [DEST]
对于以上六种命令格式,
1) rsync [OPTION]... SRC DEST
拷贝本地文件,当SRC和DEST路径信息都不包含有单个冒号“:“,就启动此工作模式,
rsync.exe –vzrtopg /data /backup
2) rsync [OPTION]... SRC [USER@]HOST:DEST
使用一个远程shell程序(如rsh、ssh)来实现将本地机器的内容拷贝到远程机器。当DST路径地址包含单个冒号":"分隔符时启动该模式。如:rsync -avz *.c foo:src
3) rsync [OPTION]... [USER@]HOST:SRC DEST
使用一个远程shell程序(如rsh、ssh)来实现将远程机器的内容拷贝到本地机器。当SRC地址路径包含单个冒号":"分隔符时启动该模式。如:rsync -avz foo:src/bar /data
4) rsync [OPTION]... [USER@]HOST::SRC DEST
从远程rsync服务器中拷贝文件到本地机。当SRC路径信息包含"::"分隔符时启动该模式。如:rsync -av root@172.16.78.192::www /databack,其中www是在rsync配置文件中,指定的模块的名称。
5) rsync [OPTION]... SRC [USER@]HOST::DEST
从本地机器拷贝文件到远程rsync服务器中。当DST路径信息包含"::"分隔符时启动该模式。如:rsync -av /databack root@172.16.78.192::www,其中www是在rsync配置文件中,指定的模块的名称。
6) rsync [OPTION]... rsync://[USER@]HOST[:PORT]/SRC [DEST]
列远程机的文件列表。这类似于rsync传输,不过只要在命令中省略掉本地机信息即可。如:rsync -v rsync://172.16.78.192/www
上传同步文件
rsync.exe -vzrtopg --progress --delete /cygdrive/c/test/*.txt xy@192.168.31.13::Jindie --password-file=/cygdrive/c/rsync.pas
解释:
rsync.exe 即rsync命令
vzrtopg 指定参数,传输的详细信息;
--delete 删除哪些在DST中存在,而SRC中没有存在的文件或者目录
/cygdrive/c/test/*.txt 注意这里的格式,不能使用windows的格式,必须使用POSTFIX标准格式;
xy@192.168.31.13::Jindie xy是有权访问服务器的用户名,192.168.31.13是服务器地址,Jindie是服务器端配置文件中指定的模块,这个模块中指定用户信息和同步路径;服务器地址和模块之间,用两个冒号隔开。
--password-file=/cygdrive/c/rsync.pas 口令文件,当中含有xy账号的密码,要与服务器端配置文件rsyncd.conf中指定的口令文件中设置的密码相同。
下载同步文件
rsync.exe -vzrtopg --progress --delete xy@192.168.31.13::Jindie /cygdrive/c/test --password-file=/cygdrive/c/rsync.pas
通常,因为上传和下载的方向性不同,直接调换源文件路径和目标地址的路径,即可。
4、 定时同步备份
把上面的命令写入到批处理器文件中,比如test.bat,通过任务计划来实现定时备份。
C:\Program Files (x86)\cwRsync\bin
rsync.exe -vzrtopg --progress --delete /cygdrive/c/test/*.txt xy@192.168.31.13::Jindie --password-file=/cygdrive/c/rsync.pas
复制上面命令,保存到test.bat文件中,
开始 -- 所有程序-- 附件--系统工具--任务计划程序
展开 任务计划程序库--Microsoft,右击 “创建基本任务“
创建基本任务向导,输入 ”名称”
点击 “下一步”
任务触发器,根据实际需要,设置每日,每周,每月同步,这里,我选择每日备份,可以减少带宽压力。
设置,每日启动的时间,这里设置每日,凌晨1点,点击 “下一步”
选择 “启动程序“
浏览,选择 脚本文件
点击 ”完成 “
到此,部署,已经全部完成。