一、引言
随着银行业务量的不断提升以及客户数量的持续增长,银行数据库和应用的数量也随之扩大,因而服务器的使用数量也相应增长。过多的物理服务器导致巨大的性能浪费,银行的运维成本不断攀升,如何使服务器性能做到最大化利用是当今企业研究的重要课题。因此,在商业银行,管理方式的革新、流程的再造和信息化平台的建设就被提上了议事日程。怎样最大化地利用硬件平台的全部资源,怎样有效地降低各种资源的管理难度等等,这些已经成为了很多商业银行正面临的大问题。虚拟化技术就在这样的背景之下应运而生。
服务器虚拟化平台的建设对商业银行而言,具有诸多的好处和优势,它不仅能够提高资源的利用率、增强系统的可用性,而且能够构建更为灵活多变的基础设施架构平台,从而大大提升业务的运行和响应能力。这些好处和优势在很大程度上也推动了各商业银行的服务器虚拟化平台建设。然而,各商业银行在进行虚拟化平台建设的过程中,依然遇到了不少实际问题和困难。比如,基础设施环境差异相对较大,人员技术资源不足,平台建设规模较小等,这些都成为虚拟化平台建设的障碍。因此,如何设计一套科学合理的虚拟化架构,如何保证建设好的商业银行虚拟化资源池既安全可靠又经济实用,如何简单而有效地进行运维管理工作,如何保障虚拟化资源池在投产后的安全稳定运行,这些都是值得研究的问题。
针对大作业要求,本文描述了针对该国际银行的虚拟化部署方案。首先,结合企业背景对目标虚拟化数据中心进行了细致的需求分析;然后提出了虚拟化方案以及存储方案,并对方案配置等进行了细节上的分析;接下来,对用户划分以及权限设置、虚拟机命名、共享存储容量规划以及地址池管理进行了描述;本文最后针对容灾方案结合vSphere的功能特性进行了阐述。
二、问题描述
2.1 问题背景
某国际银行目前采用CDC传统的数据中心解决方案,随着业务的变化,应用场景和需求越来越灵活,银行业务高速发展,原有平台已经满足不了目前的应用需求,运维带来很多不便。基于上述原因,现决定构建全新的虚拟化平台,采用最新的vSphere 6.7(6.5,6.0)版本,并考虑到未来的业务扩展。
现阶段规划X个分区,分别为生产业务区、综合管理区、网银在线区、产品测试区、运维基础区。每个业务区承载着不同数量的虚拟机,并且随着业务发展不断增加。随着新业务不断增长要求,未来将逐步把小型机服务器上应用系统迁移到虚拟化平台,最终实现数据中心x86服务器的全部虚拟化。
系统设计:根据我们所学习存储信息管理知识,设计一套虚拟化部署方案,考虑到业务的迁移的复杂性,默认不再使用原有设备(降低设计难度),因为是银行业务需要100%的冗余方案,尽量考虑容灾,存储部分设计按照基础数据为100TB设计,年增长40%,设计一个满足3年的方案。
2.2 设计要求
1、主机配置:(计算和存储)
2、用户、组、权限和角色
3、共享存储容量规划
4、虚拟机命名规划
5、地址池管理规范化
三、需求分析
3.1 数据访问和存储
银行数据从产生到存储、利用、归档,最后超过存储期限被删除,数据被读取的频率逐渐下降,数据存储的位置也应该随之变化,以提高存储设备的使用率,降低存储成本。因此有必要进行分级存储,因此考虑采用在线(On-line)存储、近线(Near-line)存储和离线(Off-line)存储三级存储方式。在存储其关键或者近期业务数据时,采用昂贵的存储设备、存储技术和存储方式;而对于时间较为久远,访问量不大的数据存放在性能较低的存储设备,但对这些设备的要求是寻址迅速、传输率高;最后通过离线存储对时间久远的数据进行归档,要求设备具有高可靠性、良好的安全性、大容量和低成本。
3.2 新业务扩展
在传统的业务上线部署模式中,一个新的应用系统从提出上线需求,到购买设备,再到安装部署,最后系统投入使用,整个周期会非常长,极大地影响了银行新业务的发展,而且无形中还给银行增大了成本,造成了损失。在建设银行虚拟化资源池时需要考虑到空闲资源的分配,从而应对新业务系统的服务器需求。提高服务器的快速部署能力,使商业银行在瞬息万变的激烈竞争中能保持对新业务的快速响应能力,从而促进业务的快速发展,创造更多的效益。
3.3 数据安全
银行数据涉及到需要被长期保存的交易信息,并且具有较强的私密性,涉及用户个人隐私,所以数据安全保护是必须考虑的,需要通过对虚拟资源分区,实现其中一个虚拟机出现系统崩渍或被病毒感染时,保证其它虚拟机仍然可以正常运行,并且可以通过容灾备份方案对数据进行恢复,通过建立远程灾备存储数据中心,将所有数据备份到远程数据中心;在整个硬件平台的所有虚拟机上还需要设置资源消耗阀值,这样就能保证虚拟机的运行不会导致整个硬件平台的资源耗尽。
四、虚拟化部署方案
4.1虚拟化方案设计
根据目前规划的5个分区:生产业务区、综合管理区、网银在线区、产品测试区、运维基础区,由于每个分区对于虚拟机的数量以及性能上的需求不同,故分配方案如下:
银行的业务总体可以分为需求设计,资产业务、中间业务三类,因此生产业务区的设计可以主要根据这三类业务分配虚拟机。由于这三类业务的每类任务都部署装有同样软件的虚拟机,并需要根据操作员人数分配相应数量的终端服务器。
因此我们为每类业务分配一台配置较高的虚拟机作为终端服务器。从而满足每类业务异构性的需求,使一台服务器可以对应多台终端,这样所需的主机资源数为终端数与终端服务器数求和。
综合管理区类似于传统的信息管理系统,因此只需要为其同样分配一台配置较高的虚拟机作为终端服务器以及满足需求的虚拟机数量即可。
网银在线区承担银行的网银业务,该区域的特点是访问量随时间变化较为明显,所以网银在线区需要根据当前实际网银业务访问量动态调整虚拟机的数量,从而对网银业务实现负载均衡;同时由于网银在线区的虚拟机需要作为Web服务器使用而终端服务器使用,因此网银在线区的服务器需要承载更高的业务量,这也要求每台虚拟机需要更高的配置。
服务器产品测试区需要为银行的新产品进行测试,但是总体需求的资源比较少,我们可以为每个产品根据其需求分配一台服务器终端服务器/Web服务器,在分配时需要根据业务的实际需求,分配配置尽可能与生产环境近似的虚拟机。
运维基础区需要对生产业务区、 综合管理区、供运维服务,运维需要将一些数据直接存储到主机中,而运维数据需要存诸在银行的系统中而非运维人员本人主机中,同时运维基础区需要尽可能稳定的网络环境,因此直接分配客户虚拟机是较好的选择,故在运维基础区对生产业务区的三个终端服务器、网银在线区、综合管理区各分配一台虚拟机作为运维使用的虚拟机。
数据中心整体虚拟化的网络拓扑结构图如下图所示:
图1 数据中心网络拓扑结构图
4.2 存储方案设计
4.2.1存储方案
分级存储是根据数据的重要性、访问频率、保留时间、容量、性能等指标,将数据采取不同的存储方式分别存储在不同性能的存储设备上,通过分级存储管理实现数据客体在存储设备之间的自动迁移。数据分级存储的工作原理是基于数据访问的局部性。通过将不经常访问的数据自动移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,可以获得更好的性价比。这样,一方面可大大减少非重要性数据在一级本地磁盘所占用的空间,还可加快整个系统的存储性能。
由于对于银行数据的访问频率随着时间的推移变化明显,故本地存储采用分级存储,从而提高存储设备的使用率,降低存储成本,主要分为三级:认为一周内的业务数据属于活跃数据,将这部分数据储存在一级存储中。考虑到可拓展性,将其他的数据分成两级进行存储,将一个月以内的数据,放入二级存储;考虑到银行的数据非常宝贵,需要保留,因此将一个月外的数据进行归档存入三级存储。示意图如图2所示:
图2 分级存储示意图
本地一级存储(在线存储),主要功能是工作级的存储,其最大特征是存储设备和所存储的数据时刻保持在线状态,可以随时读取和修改,以满足前端应用服务器或数据库对数据访问的速度要求。在线存储的一周内的业务数据,需要满足存取速度快,性能好,并且出错概率小等要求,因此在这一级中采用高端存储介质来存储近期需要频繁访问的数据。采用高端存储介质SSD硬盘,一方面可以提高用户访问的响应速度,另一方面能增强数据的稳定性。
本地二级存储(近线存储),是定位于客户在线存储和离线存储之间的应用。就是指将那些并不是经常用到(例如一些长期保存的不常用的文件归档),或者说访问量并不大的数据存放在性能较低的存储设备上。近线存储一个月中产生的历史数据。在这一层可以通过数据迁移技术自动将在线存储中不常用的数据迁移到近线存储设备上。这一级中的数据访问频率不是很高,但需保证数据共享和快速在线访问。在这一级别将使用大量低端存储介质来存储需要长期访问但是访问频率较低的数据,并且需要具有一定的拓展能力和安全保护能力,故选用SAS磁盘阵列。
本地三级存储(离线存储),大多数情况下主要用于对在线存储或近线存储的数据进行备份,以防范可能发生的数据灾难,因此又称备份级存储。采用离线归档的方式,对该国际银行长期的业务数据进行归档,这一级中要求设备具有高可靠性、良好的安全性、大容量和低成本,因此选择SATA磁盘阵列。
4.2.2 存储容量计算
银行业务需求:基础数据为100TB,年增长40%,设计一个满足3年的方案需要100%的冗余方案,尽量考虑容灾。
可以得到总存储需求,即离线存储空间需求为:
100×1+40%3×1+100%=548.8TB
在线数据存储空间需求:
至少要满足第三年数据增长的需求,需保存的7天在线可用容量:
100×1+40%2×40%×1+100%×7365≈3.007TB
近线数据存储空间需求:
至少要满足第三年数据增长的需求,需保存的3周在线可用容量:
100×1+40%2×40%×1+100%×21365≈9.021TB
4.2.3 存储配置概述
三级存储数据的保护考虑使用RAID实现:RAID ( Redundant Array of Independent Disks ),通常简称为磁盘阵列。简单地说, RAID 是由多个独立的高性能磁盘驱动器组成的磁盘子系统,从而提供比单个磁盘更高的存储性能和数据冗余的技术。 RAID可以在部分磁盘(单块或多块,根据实现而论)损坏的情况下,仍能保证系统不中断地连续运行。在重建故障磁盘数据至新磁盘的过程中,系统可以继续正常运行,但是性能方面会有一定程度上的降低。一些磁盘阵列在添加或删除磁盘时必须停机,而有些则支持热交换 ( Hot Swapping ),允许在不需要停机的情况下替换磁盘驱动器。这种高端磁盘阵列主要用于要求高可能性的应用系统,系统不能停机或尽可能少的停机时间。
4.2.4 在线存储配置
图3 RAID 6实现示意图
对于在线存储,由于该部分的银行业务属于要求高频率读取、数据恢复能力强的类型,而且需要尽可能避免数据丢失,属于对数据安全等级要求非常高的场合,故考虑使用RAID6(如图3所示),尽管RAID6实现代价很高,控制器的设计也比其他等级更复杂、更昂贵,但是为了保证该国际银行高数据访问并发性以及数据丢失恢复的要求,因此考虑使用RAID6分布式存储并且搭配4个热备盘,从而进一步提升系统对于磁盘错误的容忍能力。硬件选择方面,SSD硬盘有着现阶段最优的读写速度,同时由于其中没有活动的机械部件,存于其中的数据不易损坏,因此适合数据交换频繁的在线存储。
4.2.5 近线存储配置
图4 RAID 5实现示意图
对于近线存储,如果仍然使用RAID 6则成本较高,得不偿失,而RAID 5同样提供了存储数据和校验数据的能力,数据块和对应的校验信息存保存在不同的磁盘上,当一个数据盘损坏时,系统可以根据同一条带的其他数据块和对应的校验数据来重建损坏的数据;RAID 5磁盘利用率较高,兼顾存储性能、数据安全和存储成本等各方面因素,选用RAID 5是一种较为折中的方案。硬件选择方面,使用SAS硬盘,SAS是新一代的SCSI技术,采用串行技术以获得较高的传输速度,相比于SSD成本较低。
4.2.6 FC-SAN存储区域网络
选用FC-SAN构建在线存储和近线存储的网络,理由如下:
1. 具有出色的可扩展性。SAN比传统的存储架构具有更多显著的优势。例如,传统的服务器连接存储通常难于更新或集中管理。每台服务器必须关闭才能增加和配置新的存储。相比较而言,FC-SAN不必宕机和中断与服务器的连接即可增加存储。FC-SAN还可以集中管理数据,从而降低了总体拥有成本。
2. 节省网络带宽。利用光纤通道技术,FC-SAN可以有效地传输数据块。通过支持在存储和服务器之间传输海量数据块,SAN提供了数据备份的有效方式。因此,传统上用于数据备份的网络带宽可以节约下来用于其他应用。
3. 具有灵活性。开放的、业界标准的光纤通道技术还使得FC-SAN非常灵活,FC-SAN克服了传统上与SCSI相连的线缆限制,极大地拓展了服务器和存储之间的距离,从而增加了更多连接的可能性。改进的扩展性还简化了服务器的部署和升级,保护了原有硬件设备的投资。
4. 更好地控制存储网络环境。FC-SAN可以适合那些基于交易的系统在性能和可用性方面的需求。SAN利用高可靠和高性能的光纤通道协议来满足这种需要。
5. 传送数据块到企业级数据密集型应用能力较好。在数据传送过程中,FC-SAN在通信结点(尤其是服务器)上的处理费用开销更少,因为数据在传送时被分成更小的数据块。因此,光纤通道FC-SAN在传送大数据块时非常有效,这使得光纤通道协议非常适用于存储密集型环境。
4.2.7 离线存储配置
对于离线存储,由于要求容量大且成本低,如果仍然采用之前的存储方案,成本都将较为高额的同时带来了繁重的管理开销;故考虑采用CAS架构来对超过一个月的数据进行归档,理由如下:
1. 降低存储管理开销。无需重新配置的可扩展性 CAS的优秀功能提供了自我配置、自我管理和自我修复能力,这些特性再结合CAS的RAIN架构,有助于硬件的扩展,而且在扩充容量时不会带来中断。CAS可自动进行存储管理,从而降低总体拥有成本,提高投资回报率。
2. 保障数据安全可靠。数据的安全性、完整性、正确性直接影响档案服务质量,因此存储系统需要具有很强的数据安全性,必须能够采用一些高级的数据存储保护技术。CAS系统设备全部为冗余设计, 没有单点故障。为了确保内容的完整可靠,CAS为每个存储对象指定一个惟一的内容地址。这个地址是由内容本身衍生而来的,同一内容绝不会重复保存。数据全部采用镜像或奇偶效验方式存储, 即使发生磁盘及某个存储部件损坏的情况,也不会出现数据丢失,而且CAS具有自我治愈功能,因此对服务的要求也大大降低。
3. 降低总体拥有成本。CAS方案使用户可以规划业务系统的全在线存储模式,真正实现所有归档数据全部处于在线状态,为系统的快速响应能力提供完全保障。由于磁盘阵列成本的主要部分是硬盘,而硬盘单位存储容量的价格通常会呈明显下跌的趋势,逐年扩展CAS容量可以作为用户控制存储投资的首选方式。采用CAS方案,可以省去传统归档存储方案中昂贵的光盘库或磁带库的长期投资,使系统整体投资水平和执行效率都可同时获得优化。
4.3 用户及权限设置
针对银行业务分区,划分了以下5种角色,具体名称以及权限如表1所示:
表1 角色设置表
角色 |
描述 |
超级管理员 |
具有所有对象的特权,能够赋予、移除其他虚拟对象的访问权限和特权。 |
虚拟机管理员 |
能够与虚拟机进行交互,具有分配并管理各类虚拟机的权限。 |
存储管理员 |
能够管理数据,具有设置、修改存储阵列的权限。 |
运维工程师 |
负责运维组,查看对象的状况和详细信息,管理物理机。 |
终端用户 |
能够操作终端客户机,但是权限受限。 |
用户组设置如表2所示:
表2 用户组设置表
用户组 |
角色 |
SuperAdmins |
超级管理员 |
VMAdmins |
虚拟机管理员 |
StorageAdmins |
存储管理员 |
Operators |
运维工程师 |
Users |
终端用户 |
4.4 虚拟机命名
根据目前已有的5个分区,考虑到该银行需要进行国际业务的需求,虚拟机的命名规则可以按照如表3所示:
表3 虚拟机命名规则
分区 |
规则描述 |
生产业务区 |
PRODUCE_{地区编号}_{业务类型}_{业务编号}_{虚拟机编号} |
综合管理区 |
MANAGE_{地区编号}_{管理类型}_{虚拟机编号} |
网银在线区 |
ONLINE_{地区编号}_{虚拟机编号} |
产品测试区 |
TEST_{测试项目编号}_{虚拟机编号} |
运维基础区 |
OPERATION_{运维区域编号}_{虚拟机编号} |
4.5 共享存储容量规划
共享存储总共规划容量8T,由20个LUN构成,每个大小400G。根据VMware最佳实践,推荐Datastore与Lun一一对应,按照此规则各个集群数据存储容量规划方案如下:
表4 共享存储容量分配表
集群 |
Datastore数量 |
Lun数量 |
Lun大小 |
支持容量 |
生产业务区 |
8 |
8 |
1TB |
3.2TB |
综合管理区 |
4 |
4 |
1TB |
1.6TB |
网银在线区 |
6 |
6 |
1TB |
2.4TB |
产品测试区 |
1 |
1 |
1TB |
0.4TB |
运维基础区 |
1 |
1 |
1TB |
0.4TB |
合计 |
20 |
20 |
|
8TB |
4.6 地址池管理
考虑到作为国际银行,应该具有多个分支机构,因此采用10.0.0.0/8的网段,为每个分支机构采用10.(0~255).0.0/16之间的一个B类地址段,
图5 国际银行分支机构拓扑示意图
以“华盛顿”分支机构为例,为10.1.0.0/16进一步规划地址范围:
(1)各分支机构的工作站VLAN,可以为其使用128个VLAN,即工作站的VLAN为10.1.0.0/24~10.1.127.0/24,这样总的工作站可用IP地址是128×253=32384,此IP地址已经足够。
(2)各分支机构的服务器VLAN,为服务器规划32个VLAN,即服务器的IP地址范围为10.1.128.0/24~10.1.159.0/24,可用IP地址是32×253=8096。
(3)设备管理地址:采用10.1.252.0/24~10.1.255.0/25,可用IP地址是4×253=1012。
(4)保留地址:10.1.160.0/24~10.1.251.0/24,一共保留92个C类地址,用于以后的分配。
因为各个分支机构通过Internet组建VPN互连互通,所以还要设计VPN互连地址。在规划VPN的互连地址时,子网掩码采用255.255.255.252(子网掩码到30位)。
五、容灾方案设计
5.1 容灾方案概述
当前基于容灾的设计是以业务连续性为目标的, 这就意味着如果某一套系统发生灾难, 容灾中心需要能够自动的启动并且连续工作, VMware平台上的应用都是包含操作系统整体,并且是以文件形式存在且脱离具体硬件的, 所以容灾的设计和实现并不需要类似以往的复杂的物理环境搭建。不论是各生产系统还是容灾中心,只要是具备虚拟化能力的数据中心,都可以方便的部署异地虚拟化容灾。
一个完善的容灾系统主要包括三个层次:数据容灾,应用容灾和网络容灾;两个级别:本地高可用性(HA、Fault Tolerance或者备份),异地容灾。
1. 数据容灾就是指建立一个异地的数据系统,该系统是本地关键应用数据的一个同步或异步复制。
2. 应用容灾是在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备份应用系统(可以是互为备份),在灾难情况下,远程系统迅速接管业务运行。
3. 网络容灾是指在灾难发生后,当应用系统完成正确的迁移后,将访问应用系统的网络流量正确的导向远程的容灾系统。
4. 本地高可用性是指可通过高可靠性的集中存储,高可靠性的虚拟计算体系为客户提供本地高可用性。
接下来分别针对不同层次和级别的容灾方案进行设计。
5.2 数据容灾设计
对于本地本级备份,建立了在线、近线、离线等多级存储备份系统,充分利用先进的备份手段和备份策略,形成完整的本地备份管理解决方案;备份的数据包括操作系统、数据文件以及应用服务环境等多个方面;日常访问的重要数据采用磁盘或者虚拟带库方式备份,归档数据和非重要数据采用磁带库方式备份;重要数据应至少保证每周做一个全量备份,平时做增量备份。
对于数据级异地灾备中心,选址上,应进行风险分析,避免异地备份中心与主中心同时遭受同类风险;网络备用系统上,必须在核心网络层面实现热备,保证灾备中心区域内通信的可靠性;数据备份系统上,主中心与备份中心的备份链路应有冗余,并确保2小时内将主中心的增量数据复制或备份到灾备中心;数据处理备用系统上,配备灾难恢复所需的全部数据处理设备,并处于就绪状态或运行状态,与主中心共同承担部分核心应用的查询服务功能。
VMware实现异地数据中心容灾的解决方案主要是提供 Site Recovery Manager(SRM)产品,Site Recovery Manager可自动执行并简化灾难恢复计划的管理和执行工作,帮助您摆脱传统灾难恢复中的诸多不便。由于 VMware Site Recovery Manager 省去了复杂的手动恢复步骤,能够对恢复计划执行无中断测试,并且可以自动执行恢复过程,因此能够在整个数据中心高效地进行灾难恢复。VMware Site Recovery Manager 还有助于进行数据中心的计划内故障切换,例如数据中心迁移。
图6 VMware SRM 容灾示意图
5.3 应用容灾设计
应用级灾备包括两个方面:数据同步和应用接管。数据同步是应用接管的前提。在保证数据同步基础上,要实现应用接管,还要能实现灾难发生时的网络切换和应用切换。
5.3.1网络切换设计
应用级灾备要求提供冗余的网络线路和设备。正常情况下,客户端通过生产中心的业务网络访问生产中心的应用服务器;在发生灾难时,通过网络切换,客户端能够访问到灾备中心的备用服务器。
目前,网络切换主要有以下三种:
(1)基于IP地址的切换
生产中心和灾备中心主备应用服务器的IP地址空间相同,客户端通过唯一的IP地址访问应用服务器。在正常情况下,只有生产中心应用服务器的IP地址处于可用状态,灾备中心的备用服务器IP地址处于禁用状态。一旦发生灾难,管理员手工或通过脚本将灾备中心服务器的IP地址设置为可用,实现网络访问路径切换。
(2)基于DNS服务器的切换
在这种方式下,所有应用需要根据主机名来访问,而不是直接根据主机的IP地址来访问,从而通过域名实现网络切换。
(3)基于负载均衡设备的切换
通过在服务器集群前端部署一台负载均衡设备,根据已配置的均衡策略将用户请求在服务器集群中分发,为用户提供服务,并对服务器可用性进行维护。负载均衡能够按照一定的策略分发到指定的服务器群中的服务器或指定链路组的某条链路上,调度算法以用户连接为粒度,并且可以采取静态设置或动态调配的方式。负载均衡设备能够针对各种应用服务状态进行探测,收集相应信息作为选择服务器或链路的依据,包括ICMP、TCP、HTTP、FTP、DNS等。通过对应用协议的深度识别,能够对不同业务在主生产中心和灾备中心之间进行切换。
5.3.2应用切换设计
应用切换是指生产中心由于发生灾难而瘫痪时,可由灾备中心的备用服务器提供业务接管,确保业务运行的高连续性。
实现应用切换的前提条件是:
• 数据已经从生产中心同步到灾备中心;
• 灾备中心配置与生产中心对应的应用软件服务器、数据库服务器和中间件服务器等,且运行正常;
• 灾备中心网络运行正常或能够实现正常切换。
应用切换技术主要有以下几种:
(1)双活数据库技术
部分数据库复制容灾软件,能够实现生产中心和灾备中心数据库双活,即灾备中心的备份数据库也处于Open状态,客户端可对灾备数据库进行只读访问(例如GoldenGate、DSG等数据库复制软件)。生产中心和灾备中心数据库保持双活,可提高灾备中心的资源利用率,分担生产中心的业务负担,在发生灾难时,自然也可以实现应用和业务的接管。
这种方式的缺点之一是只适合于特定的数据库应用,不适合文件系统等应用,有一定的局限性。
(2)远程集群技术
远程集群是指通过在生产中心和灾备中心的应用服务器上安装远程集群软件(例如Veritas Storage Foundation中的GCO组件),实现跨广域的多服务器状态的监控,当发生灾难时,实现应用服务器的自动切换。主要是由厂家提供的一些容灾软件实现自动切换,拉起异地的应用和数据库。例如,赛门铁克的VCS,IBM的PowerHA等。
(3)手动切换方式
手动切换方式实现较简单,总体成本低,适用范围广,而且较可靠。采用这种方式时,灾备中心部署与生产中心相对应的应用服务器和数据库服务器,安装相应软件。在正常情况下,灾备中心服务器可选择不运行或者处于就绪状态但对外不可访问;发生灾难时,可在人为决策后,将灾备中心服务器启动或恢复对外访问,实现业务的快速切换。
5.4 本地高可用性应用
5.4.1 HA
vSphere High Availability (HA) 可为虚拟机中运行的应用提供易于使用、经济高效的高可用性。 一旦物理服务器出现故障,VMware High Availability 可在具有备用容量的其他服务器中自动重启受影响的虚拟机。 若操作系统出现故障,vSphere HA 会在同一台物理服务器上重新启动受影响的虚拟机。
图7 vSphere High Availability
HA 通过监控虚拟机以及运行这些虚拟机的主机,为实现高度可用的环境奠定了基础。 HA 是一种成熟的解决方案,可提供可扩展性、可靠性和易用性:
可扩展性
随着VMware产品在如今的新式数据中心内得到越来越多的使用,提供一种可扩展的解决方案来实现高可用性已成为必需。经过重新设计的vSphere HA便奠定了这一基础。
vSphere HA的其中一项最大的变化就是完全摒弃了主节点和辅节点的概念。新模型在集群中的节点间引入了一种主/从关系:集群中的一个节点被选作主节点后,其余的节点皆成为从属节点。主节点负责协调与其他节点的所有可用性操作,并将这种状态告知VMware vCenter Server。采用这种模式时,在为高度可用的环境设计体系结构时便无需再进行大量的规划工作。管理员再也不必担心是哪些主机担当他们的主节点以及这些主机位于何处。
可靠性
发生灾难事件时,管理员最不希望担心的事情就是所部署的解决方案是否将正常发挥作用。VMware通过分析客户就vSphere HA最常致电寻求支持的内容,增加了一些可确保客户继续满怀信心地使用vSphere HA的功能。
有一项增强是让vSphere HA不再依赖任何外部组件。具体而言,就是vSphere HA不再对集群中每个主机进行的DNS解析有任何类型的依赖。通过消除这种依赖,降低了外部组件停机对vSphere HA的运行产生影响的可能性。
还有一项增强是能够通过存储子系统在集群内的节点之间实现通信。现在,vSphere HA将通过网络和存储使用多条通信路径。这不仅可以实现更高的冗余级别,还有助于更好地确定节点及其上运行的虚拟机的运行状况。
易用性
尽管对vSphere HA进行的大多数增强,终端用户都看不到,但针对易用性提升进行的增强则可以给终端用户带来最直接、最切身的体验。
通过对用户界面进行的改进,用户可以快速确定节点在集群中所发挥的作用以及它的状态。此外,报告错误情况的消息也变得更为易懂,而且也更容易据此采取行动。真的出现问题时,只需查看一个日志文件即可,从而大大减少了解决问题所用的时间。
5.4.2 vMotion
vSphere vMotion能在实现零停机和服务连续可用的情况下将正在运行的虚拟机从一台物理服务器实时地迁移到另一台物理服务器上,并且能够完全保证事务的完整性。vMotion是创建动态、自动化并自我优化的数据中心所需的关键促成技术,它的主要优点是:
即时迁移正在运行的整个虚拟机
VMware的客户中,80%都在生产中部署了vMotion技术,此技术利用服务器、存储和网络连接的完全虚拟化,可将正在运行的整个虚拟机从一台物理服务器立即迁移到另一台物理服务器上,同时,虚拟机会保留其网络标识和连接,从而确保实现无缝的迁移过程,管理员可以使用这种热迁移技术来完成如下操作:
- 在零停机、用户毫无察觉的情况下执行实时迁移
- 持续自动优化资源池中的虚拟机
- 在无需安排停机、不中断业务运营的情况下执行硬件维护
- 主动将虚拟机从发生故障或性能不佳的服务器中移出,从而保证虚拟机的运行效率
轻松管理和安排实时迁移
迁移向导可以使管理员轻松管理和安排虚拟机的迁移操作,它可以:
- 执行任何虚拟机的多个并行迁移,虚拟机可以跨任何受vSphere支持的硬件和存储并运行任何操作系统
- 几秒钟内即可确定虚拟机的最佳放置位置
- 安排迁移在预定时间发生,且无需管理员在场
可以实现跨边界迁移和远距离迁移
凭借 vSphere 6.0,VMware 通过提供可以跨分布式交换机和 vCenter Server 的边界实施的新 vMotion 功能,不断革新工作负载实时迁移技术,如下图所示:
图8 跨分布式虚拟交换机执行vMotion
5.4.3 FT
图9 vSphere Fault Tolerance
vSphere HA通过在主机出现故障时重新启动虚拟机来为虚拟机提供基本级别的保护,而vSphere Fault Tolerance可提供更高级别的可用性,它允许用户对任何虚拟机进行保护以防止主机发生故障时丢失数据、事务或连接。FT可以完成如下功能:
- 在受保护的虚拟机响应失败时自动触发无缝的有状态故障切换,从而实现零停机、零数据丢失的持续可用性
- 在故障切换后自动触发新辅助虚拟机的创建工作,以确保应用受到持续保护
Fault Tolerance可提供比vSphere HA更高级别的业务连续性。当调用辅助虚拟机以替换与其对应的主虚拟机时,辅助虚拟机会立即取代主虚拟机的角色,并会保存其整个状况。应用程序已在运行,并且不需要重新输入或重新加载内存中存储的数据。这不同于vSphere HA提供的故障切换,故障切换会重新启动受故障影响的虚拟机。
FT的主要特点如下:
不论使用何种操作系统或底层硬件,均可为应用提供保护
Fault Tolerance可以保护所有虚拟机(最多包含 4 个虚拟 CPU),包括自主开发的应用,以及无法用传统的高可用性产品来保护的自定义应用。它可以:
- 与所有类型的共享存储都兼容,包括光纤通道、iSCSI、FCoE和NAS
- 与VMware vSphere支持的所有操作系统兼容
- 可与现有的vSphere DRS和High Availability (HA)集群协同工作,从而实现高级负载平衡和经优化的初始虚拟机放置
- 特定于FT的版本控制机制,允许主虚拟机和辅助虚拟机在具有不同但兼容的补丁程序级别的FT兼容主机上运行
易于设置,可按虚拟机启用和禁用
由于Fault Tolerance利用了现有的vSphere HA集群,因此可以使用FT保护集群中任意数量的虚拟机。对于要求在某些关键时段(例如季末处理)获得持续保护的应用,可以利用FT更加有效地保证它们在这些时段可用。
只需在vSphere Web Client中轻松执行点击操作,即可启用或禁用FT,使管理员能够根据需要使用其功能
此外,vSphere 6.0还引入了如下新特性:
- 增强的虚拟磁盘支持:目前支持任意磁盘格式 (thin, thick和EZT)
- 支持对FT进行热配置:在开启FT的时候不再需要关闭虚拟机
- FT的主机兼容性大幅增强:只要可以在主机间进行虚拟机的在线迁移,那么久可以进行FT。
5.4.4 无代理终端安全防护
图10 无终端防护示意图
终端安全管理是一项费时费力的工作,终端分布广泛,种类繁多,难于管控。传统的终端安全防护手段需要在终端上部署代理程序,保证这些代理始终有效且能得到及时更新,是一项充满挑战的工作,很多企业为此不得不应用终端管理和网络准入控制等解决方案来保证终端的可控。虚拟化和云计算时代的到来,彻底的改变了这种局面。虚拟基础架构为企业计算环境带来了新的管控手段,使无代理安全防护成为可能。vShield Endpoint 通过将病毒扫描活动从各个虚拟机卸载到安全虚拟设备来提高性能。安全虚拟设备能够持续更新防病毒特征码,为主机上的虚拟机提供无中断保护。
vShield Endpoint 直接嵌入到 vSphere 中,由以下这三个组件组成:
- 经过加强的安全虚拟设备,由 VMware 合作伙伴提供
- 虚拟机精简代理, 用于卸载安全事件 (包含在 VMware Tools 中)
- VMware Endpoint ESX虚拟化管理程序模块,用于支持前两个组件在虚拟化管理程序层上的通信。
例如,对于防病毒解决方案,vShield Endpoint 将监视虚拟机文件活动并通知防病毒引擎,然后再由引擎进行扫描并返回处置信息。该解决方案支持在访问时进行文件扫描,以及由安全虚拟设备中的防病毒引擎发起的按需(计划内)文件扫描。当需要进行修复时,管理员可以使用他们现有的防病毒和防恶意软件管理工具指定要执行的操作,同时由 vShield Endpoint 管理受影响虚拟机中的修复操作。其主要功能特性如下:
卸载防病毒和防恶意软件负载
- vShield Endpoint 使用 vShield Endpoint ESX 模块将病毒扫描活动卸载到安全虚拟设备中,通过在该设备上执行防病毒扫描提高性能。
- 通过瘦客户端代理和合作伙伴 ESX 模块,将文件、内存和进程扫描等任务从虚拟机卸载到安全虚拟设备中。
- vShield Endpoint EPSEC 使用虚拟化管理程序层的自检功能来管理虚拟机与安全虚拟设备之间的通信。
- 防病毒引擎和特征码文件只在安全虚拟设备内更新,但可对 vSphere 主机上的所有虚拟机应用策略。
修复
- vShield Endpoint 实施防病毒策略,以指定应删除、隔离还是以其他方式处理恶意文件。
- 精简代理负责管理虚拟机内的文件修复活动。
加强虚拟数据中心的端点安全保护
可以充分利用现有投资,并且可在与用来保护物理环境相同的管理界面中管理虚拟化环境的防病毒和防恶意软件策略。 VMware vShield™ Endpoint 可在增强 VMware vSphere 和 VMware View 环境的安全性的同时,将端点保护性能提高若干数量级,而且还能将防病毒和防恶意软件代理的处理工作负载卸载到由 VMware 合作伙伴提供的专用安全虚拟设备上。
- 通过避免防病毒“风暴”提高整合率和性能
- 简化 VMware 环境中的防病毒和防恶意软件功能部署与监控
- 通过将防病毒和防恶意软件活动记入日志满足合规性和审核要求
六、总结
综上所述,本虚拟化部署方案根据国际银行的虚拟化和存储需求,分别考虑了5种分区并提出了相应的虚拟化方案,并对用户划分以及权限设置以及虚拟机命名等细节上提出了规划;存储系统的设计上使用了分级存储、磁盘阵列、CAS系统等存储技术;提出了相应的存储方案,并对方案配置等进行了细节上的分析;最后对于容灾方案,从三个方面数据容灾,应用容灾和网络容灾;两个级别:本地高可用性和异地容灾,提出了相应的解决方案思路,并结合了vSphere的功能特性进行了阐述。 在设计过程中充分考虑了银行的业务需求,使其具有较高的业务可扩展性,并在容灾方面进行了细致的考虑,从而满足了该国际银行的构建虚拟化平台的要求。
七、参考文献
[1]何锡点,马桂勤.基于云平台的数据中心改造架构设计及关键技术[J].网络安全技术与应用,2018(12):73-75.
[2]张恬.虚拟化技术在数据中心的应用[J].电脑知识与技术,2018,14(31):256-257.
[3]康玉虎.服务器虚拟化环境下的数据备份[J].电子技术与软件工程,2018(19):175.
[4]盛建忠.VMware vSphere虚拟化平台运维探索[J].金融科技时代,2018(09):30-34.
[5]王博.银行数据中心数据存储管理的实现与优化[J].电子技术与软件工程,2018(05):164-165.
[6]孙张龙. 基于虚拟化技术的某银行数据中心设计与实现[D].电子科技大学,2017.
[7]王珊珊. 云计算在工商银行会计信息化中的应用研究[D].哈尔滨商业大学,2017.
[8]苟洁. 基于VMware vSphere技术的虚拟云平台的研究与设计[D].成都理工大学,2016.
[9]张璐阳. 商业银行中的云计算应用[D].南京邮电大学,2015.
[10]张楠.金融云时代银行数据中心网络安全虚拟化的技术实践[J].保密科学技术,2015(02):17-20.
[11]李建安. 面向银行Domino业务的虚拟化技术应用[D].上海交通大学,2014.
[12]徐克周. 商业银行虚拟化资源池的设计与实现[D].厦门大学,2014.
[13]袁志. 服务器虚拟化在商业银行应用研究[D].湖南大学,2014.
[14]刘冠雄. 银行数据中心高可用与高能效建设研究[D].复旦大学,2013.
英雄史诗 发布了57 篇原创文章 · 获赞 6 · 访问量 1万+ 私信 关注