上云迁移-海量数据迁移解决方案

摘要:传统数据存储在线下数据中心,存在成本高、运维难、性能难保障等等多方面的问题。阿里云提供闪电立方、OSS/NASImport、混合云存储阵列、镜像回源、302跳转、伪源站等六大解决方案为企业提供不同场景的海量数据迁移解决方案。


存储和数据迁移的挑战
在传统企业服务中,大多数企业都是自建IDC,因此经常会遇到各种各样的问题,第一是成本高,机器成本、网络成本、人工成本,软件授权费用,公网内网费用,IDC租用费用等等。第二是运维很难,经常随着数据的积累,硬盘故障,服务器故障,网络故障,软件故障,IDC故障,用户投诉,整个运维难度成指数增加,体验非常差。第三是性能难保障,数据可靠性,服务可用性,功能先进性,安全性。随着业务的发展,以前的存储系统很难满足业务的发展、功能和性能的发展。因此向云迁移是数据存储的未来趋势。

上云迁移-海量数据迁移解决方案 

阿里云存储有很全的产品家族,包含块存储、文件存储、对象存储、归档存储、表格存储等等。每一项都可以分很多子项。因此运维也不像以前那么难,可以做到代码改动上云、安全免运维(不用关注细节)、三步开通(开通-使用-付费)、一键备份等等,非常简洁方便。阿里云存储在全球有19个节点,可以做到全球写、全球读,目前在国内是最强的。


阿里云存储海量数据迁移解决方案
对于数据迁移来说,一般分为以下五个步骤:
1、评估现有的业务情况。做迁移之前,一定要把业务的情况了解清楚,比如:现有存储的总体IO、总吞吐、网络总带宽、已用带宽。
2、评估可用资源。存储集群可用吞吐、IO、可用稳定网络带宽、预留安全水位。
3、迁移前准备。根据评估状况制定迁移方案,计算需要的部署闪电立方Agent的集群数量和NASImport集群数量。
4、开始迁移。部署迁移集群,监测迁移状态,失败文件重试。
5、迁移结束。检查迁移文件数、校验迁移文件正确性。
在向云迁移海量数据的过程中,因为非结构化的存储比结构化的存储有更多的数据格式类型。对于非结构化的存储,没有办法知道有多少数据类型和文件系统,也有一些本地的大数据相关的对象存储,这样的对象存储,接口不一样,实现功能也不一样,因此对于非结构化的存储迁移需要更多的组合方案。阿里云提供了离线迁移的方案,叫闪电立方。同时也提供了海量数据在线迁移基于OSS/NASImport的在线迁移工具,针对不同的互联网产品,也提供了各种迁移服务,比如混合云存储阵列、镜像回源、302跳转、伪源站等等。下面分别介绍这六种解决方案。
在线迁移神器OSS/NASImport
上云迁移-海量数据迁移解决方案 
Import工具是一款全在线的海量数据迁移工具,通过部署到服务器或者ECS机器,可以快速、安全稳定的将数据迁移到阿里云存储。它有如下特点:
1、支持多种源站,多种数据接口,可定制开发.
2、全在线服务,无缝迁移。
3、支持存量数据同步和增量数据自动同步。
4、支持断点续传,失败任务重传。
5、支持上传/下载流量控制。
6、支持多任务,并行数据下载/上传。
7、支持上传结果校验。
8、可视化监视界面。
离线迁移神器闪电立方
上云迁移-海量数据迁移解决方案 
除了在线迁移之外,闪电立方是阿里云2017年发布的一款离线迁移神器,闪电立方实际上是一台服务器,它有如下特点:
1、军工级物流密码保护箱。
2、双控制器,支持双电源。
3、企业级SAS硬盘,Raid6数据保护。
4、AES256 对称加密,MAC认证。
5、客户保管密码 SHA256(可选)。
6、支持压缩去重。
7、确认迁移完成后,数据合规擦除。
8、单套支持每次迁移480TB。
闪电立方就像一个超大的U盘,可以直接把闪电立方插到机房,然后把数据迁移到闪电立方,再通过专业传输物流上传到阿里云机房即可迁移成功。
混合云存储阵列
上云迁移-海量数据迁移解决方案 
OSS/NASImport和闪电立方这两种方案基本上在数据迁移之后,企业会放弃自己的机房,然而对于想混合使用的原有机房和云上资源的情况下,阿里云也有解决方案,就是使用混合云阵列,使用场景有企业数据云端拓展、企业数据云端同步、备份数据云端异地灾备等。它的核心功能是提供丰富的设备端协议支持,原有应用无需修改,提供端到端的数据加密机制,数据自动分层,高性能的数据上云能力。有缓存和同步两种模式,数据支持端到端的压缩、去重、加密,还支持多版本快照、数据自动分层。
OSS镜像回源
上云迁移-海量数据迁移解决方案 
另外有一些互联网业务,完全不能停机迁移的,阿里云也提供两种迁移方案,第一个是OSS镜像回源,功能是把所有的访问先切到OSS上面,然后配置好镜像回源的地址,用户访问OSS的时候,OSS会主动回源到主站。
302跳转
另外一种方案,不需要把所有数据迁移到OSS数据,比如热点数据,我们提供302跳转功能。当用户通过CDN访问OSS的时候,即使OSS没有数据,只要打开302跳转功能并且配置好回源地址,OSS会主动的把回源地址返回给CDN,然后CDN会拿到地址再回源到源站拿到数据返回给用户。这两种是完全在线迁移,对互联网业务和增量数据迁移是非常好用的。
伪源站
上云迁移-海量数据迁移解决方案 
如果企业有多个源站,可以使用伪源站在线迁移,把伪源站和真正的源站进行隔离,由伪源站去拿数据。伪源站相当于替代源站,去把所有的业务处理完以后,再把数据上传到OSS,这在互联网业务分发应用的非常广泛。
上云迁移-海量数据迁移解决方案 

以上介绍的6个方案适用于不同的应用场景。对于非结构化的数据来说,数据类型太多、数据量大小也不一样。例如像闪电立方,最适合做离线迁移,即使数据量上百TB,但前置条件是本地IDC要有足够的内网带宽和机架提供给闪电立方。例如像镜像回源,用户访问OSS的时候,如果文件特别大,再去源站拿数据的时候,访问速度就会非常慢,所以镜像回源适合小规模的文件迁移,例如图片、短视频等等。


客户实践
上云迁移-海量数据迁移解决方案 
某企业业务全是互联网业务,经过日积月累,数据已经达到上百TB,并且数据中心分布的非常广,在各地都有,而且每个数据中心网络条件不一样,存储机器也不一样,所以非常纠结是不是需要上云。阿里云给客户做了一套比较完善的“离线+在线+互联网”迁移方案。因为他们的IDC机器非常老,网络环境又恶劣,没法跟OSS专线连通,成本过高,硬件支持不了这么大的带宽,所以阿里云做了一套闪电立方的专业迁移方案,多批次的搬迁。当第一批闪电立方上架之后,第二批马上准备,在第一批迁移完之后,第二批马上开始,基本上做到了每分每秒都在迁移,跟在线迁移同时完成。在迁移的过程中,也产生了一批增量数据,通过增量数据回源的方法,把增量数据也迁移进去。这是一个大型互联网公司数据迁移上云方案。
上云迁移-海量数据迁移解决方案 
另一个案例是一个传统的三甲医院的数据迁移方案,他们的存储机还在用,并且希望迁移过程中产生的增量数据只迁移一部分。阿里云也制定了一套完整的方案,其中关键点在于把客户所有的本地数据,通过闪电立方存储到OSS,再同时把混合云存储阵列部署到客户的机房,把剩余的增量数据同步到OSS里面。因为数据不是特别大,一个星期之内就迁移完了。目前,该上云的数据就上云,该在线下的数据依然存储在线下,自己的应用一点都不用改变。
上云迁移-海量数据迁移解决方案 

在存储迁移这个领域,阿里云积累了大量的经验。阿里云存储服务客户的数据达到了10EB以上,为100PB以上的客户从线下迁移到阿里云OSS,最多一天迁移5PB的数据。阿里云的迁移方案接口丰富、性能强大、稳定可靠、安全高效,支持在线、离线、纯互联网、传统企业的混合云模式进行迁移,将来会有越来越多的客户会把线下的数据迁移到阿里云存储。


本文由云栖志愿小组黄小凡整理

上一篇:二分/三分小结


下一篇:【02-05】权限管理 [chown|chmod|getfacl|setfacl | chattr|lsattr ]