第3章
企业需求分析和私有云资源规划及设计
很多企业或组织在经历二十多年的IT系统分散式建设后需要进行全面的整合和集成,以便支撑业务一体化运营,为深化数据应用以及引入新技术、持续推动业务与管理创新打下坚实的基础。企业私有云资源的规划也应基于对自身业务的全面理解,在总体架构层面进行私有云资源和业务系统的规划和梳理,同时通过统一的企业云平台,实现数据和应用的整合,对外提供灵活、便捷、自助的云服务,并不断优化企业的IT架构和治理,形成最佳实践。
3.1 企业信息技术需求分析
3.1.1 基础设施需求
随着信息技术行业步入云时代,数据中心在建设及管理层面也面临诸多新需求。云计算对数据中心基础设施的需求也发生了变化—包括提高资源利用率、降低运营成本、扩容及收缩在内的资源调配灵活性、软件定义数据中心的管理新需求,这些都要求企业数据中心基础设施从业务模式上进行新的转变。基础设施的具体需求体现在如下方面。
□提高资源利用率、节约机房空间
设备资源的高能耗和低能效导致数据中心场地不足和电力紧张等诸多问题,此时急需利用云计算相关技术对企业信息系统基础设施资源进行整合,提高资源利用率,减少所需设备数量,节约数据中心机房空间,提高数据中心的承载能力。
□灵活调配资源,节能减排,建设绿色数据中心
构建一个高效灵活的基础设施架构,优化资源的利用,实现信息系统基础设施资源的共享和按需分配;有效地进行电源管理,降低设备能耗,减轻机房供电压力,实现节能减排,降低数据中心运营成本,建设绿色数据中心。
□基础设施标准化、整合与统一规划
传统的基础设施标准化局限于采用统一的硬件,这仅是标准化的起步。未来的数据中心将是一个资源供应中心,提供动态的资源供应来满足业务需求就必须打破原有的IT孤岛,把IT资源按照统一标准进行整合,并在此基础上进行统一规划,减少异构环境,提供统一的基础设施服务,使之与业务应用系统融为一体。
□优化数据存储,减少整体数据量
在建立逻辑统一的存储资源池后,需采用重复数据删除等数据压缩技术,减少云技术平台的总数据量,进一步降低磁盘阵列设备数量,提升存储设备投资回报率。
□基础设施的统一管理和运维
传统设备运维方式都是垂直式管理和运维模式,缺少互相协助,同时造成人才资源的浪费,因此应在统一IT基础设施资源的基础上,构建统一的云技术平台和运维体系,对信息系统基础设施资源进行统一管理和使用,降低管理和运维的难度,降低运维成本,提升集团公司信息系统基础设施的综合服务能力。
□缩短业务信息系统部署周期
新业务信息系统的上线周期过长,从立项、可研、设备采购、到货到实施完成需要大半年时间,前端部门的业务需求紧急,但后端招标采购的流程和时间较长,不能在短时间内完成业务部署。通过云技术平台的建设,可为待上线业务系统快速提供服务器和存储资源,并提供自动化、模板化安装部署手段,缩短了业务信息系统的部署和周期,也为业务流程的重构与优化提供强有力的信息化支撑。
□业务信息系统灵活扩展
随着企业现有业务的扩张和新业务的快速推广,系统访问量增长迅速。为了避免因传统系统扩容模式给业务连续性造成的影响,业务信息系统应能够实现包括服务器、存储等IT基础设施的平滑、灵活扩容。
□高性能计算需求
采用云计算基础架构,高性能计算中心可以自动管理和动态分配、部署、配置、重新配置以及回收资源,也可以自动部署多种应用平台,从而根据不同需求实现快速高效、动态优化的资源分配。
但是,如何有效利用云的方式取决于应用,对于计算密集型和I/O密集型的高性能计算应用,现有的云计算解决方案存在很多技术上的瓶颈,主要包括:
■I/O瓶颈。当前许多云计算架构建立在虚拟化技术之上,I/O密集型业务需求不能很好地满足,因此会严重影响应用的网络延迟和访问带宽,造成额外的资源需求,降低了整体运算性能。对于一些并行程序,其性能甚至可能相差数倍。
■数据瓶颈。高性能计算通常需要对大量的非结构化数据进行访问,而云计算环境则须考虑为不同平台提供统一的高速数据访问性能、全局命名空间和多种应用访问协议支持,且需要具备与计算资源快速分配相匹配的数据管理功能。
■管理瓶颈。对于传统的高性能计算,其资源一般相对固定,通常通过资源和负载管理软件来提高资源的利用率。在云计算环境中,则需要结合负载管理和资源分配,提高总体系统利用率和用户服务质量,同时还能满足特定应用高峰时间的资源需求。
因此,对于高性能计算需求来说,应结合高性能计算应用特点和云技术平台的优势,通过虚拟化和自动化技术,同时支持物理机和虚拟机环境,解决I/O、数据和管理等瓶颈,实现硬件资源和软件资源的统一管理、统一分配、统一部署、统一监控和统一备份,打破单个计算对资源的独占,最终建设完成高性能的云计算服务平台。
□资源池跨数据中心调配需求
通过技术手段可以实现跨中心调配,以及跨数据中心实现负载分摊,但需要对现有网络架构进行大规模改造。对于交易类业务信息系统,为了保证数据的可靠性、一致性和安全性,不建议将应用服务器和DB服务器分别部署在不同的数据中心并进行跨数据中心调配。
3.1.2 系统灾备需求
在目前业界的灾备建设方案中,灾备资源池分区管理、虚拟机迁移、统一虚拟化存储等云计算相关技术已经被广泛使用,企业私有云技术平台应与灾难恢复建设充分结合,为灾备系统的建设提供更快捷、经济的技术手段,同时为业务的连续性提供可靠保障。
□同城灾备信息系统技术支持需求
灾备等级5的业务信息系统需同城灾备中心提供灾备数据的存储资源,实现生产业务系统数据的同步复制,同时根据该级别的灾备恢复能力要求,同城灾备中心须提供相应的服务能力。灾备等级3~4的业务信息系统需同城灾备中心根据该级别的灾备恢复能力要求,提供应用级灾备所需的所有计算、存储和网络资源。
□异地灾备信息系统技术支持需求
灾备等级5的业务信息系统需异地灾备中心提供应用级灾备资源,包括计算、存储和网络资源,根据该级别的灾备恢复能力要求提供相应的服务能力;灾备等级3~4的业务信息系统需异地灾备中心提供应用级灾备所需的所有计算、存储和网络资源,根据该级别的灾备恢复能力要求提供相应的服务能力;灾备等级2的业务信息系统需异地灾备中心提供其生产数据备份所需的存储资源,实现备份数据的异地保存。
灾备等级和建设标准见图3-1。
3.1.3 业务信息系统需求
通过企业私有云技术平台建设,可以对业务信息系统的基础设施资源进行集中化管理并按需分配,实现业务信息系统的快速部署,保障业务信息系统的连续性,同时提高资源利用率和运维效率。
例如,某企业ERP系统的云化需求如下。
□弹性资源调配
原ERP系统多数采用UNIX小型机,由于各厂商小型机系统不能兼容,造成扩展性较差,资源无法根据业务需求有效调配。ERP系统在部署到云技术平台后,使用x86架构服务器和虚拟化技术,可更为灵活地调配资源,满足业务和系统性能的要求,在业务高峰期提高运行效率,在实现同等运算能力的情况下资源采购费用可以节省50%~60%。
□保障业务连续性
原ERP系统已经建立了备份机制,但防范区域性大规模灾难的异地灾备机制尚不完善。云技术平台在实现生产资源灵活调配的同时,还能够为ERP系统提供同城、异地容灾功能等手段,从而保证业务连续性。
□统一开发测试环境
原ERP系统规模庞大、业务复杂,任何对生产系统配置的修改都需要在测试环境中模拟、验证后再实施。由于缺乏统一的开发测试环境,各系统都需要自行采购设备、搭建测试环境,相互无法共享基础设施资源,在一定程度上造成了资源的浪费。云技术平台能够构建统一的开发测试平台,为多个系统提供开发测试环境,并利用云计算快速部署、灵活调配的特点来提高测试环境使用效率。
引入云计算技术后,ERP系统在实现硬件标准化、降低运维复杂度的基础上,还能够实现基础设施资源灵活的按需分配,进一步提高设备效率、缩短系统部署时间。
3.1.4 数据与标准化需求
1.数据需求
云技术平台所存储的数据由两部分组成,分别为平台自身运营管理数据和平台中业务系统的生产数据。
□业务信息系统生产数据
即业务信息系统在生产运行过程中生成的数据。云技术平台根据业务信息系统需求,在存储资源池中划分相应存储空间,业务信息系统将生产数据存储至该空间,并可根据数据量需求向云技术平台申请扩大存储空间。
□云技术平台运营管理数据
即云技术平台在运营管理和运维管理工作中产生的数据,包含系统配置信息、监控日志、订单信息等数据。此类数据为云技术平台的运行提供支持。
2.标准化需求
从技术角度看:
□概念和定义:通过标准化统一云计算的概念、定义及内容。
□互操作:需要制定分布式计算资源、存储资源之间的接口标准,以便更好地解决互操作问题。
□虚拟化:需要制定网络、硬件等各种资源虚拟化的格式规范,解决资源的虚拟化、调度和流转问题。
应用开发和部署:需要制定虚拟资源池应用开发接口规范,为上层应用的开发部署及应用提供更好的支撑。
□相关产品:需要制定分布式文件系统、分布式数据库、资源虚拟化系统等产品的功能、性能要求等标准,为提高产品质量提供支持。
从运营和安全管理角度看:
□服务能力:需要制定标准规范提供云计算服务应具备的条件和能力。
□服务质量评价:需要制定云计算服务质量的评价标准,保证服务质量。
□运行维护:需要针对云计算相关计算、存储资源的运行维护制定相关标准,为提高运营提供支持。
□安全管理:需要制定数据的存储和传输安全,加强云的安全管理,如跨云的身份鉴别、访问控制、安全审计等。
□能效管理:需要制定针对绿色数据中心建设的标准,为实现节能减排、低碳提供标准支撑。
3.2 企业私有云资源规划及设计
3.2.1 企业应用软件模式划分
按照应用软件实现的模式进行划分,企业常见的应用系统总体上可以分为如下两大类,这两大类应用实现的技术有很大差异。
1.应用功能实现类
□交易类:核心数据处理类业务,如收款、支付、结算、核算、仓储、物流、配送、客服。
□流程类:流程驱动类业务,主要是各种审批类的管理型业务。把信息记录下来,为了方便事后追溯查询或者汇总统计。
□决策类:包括自定义查询、报表、OLAP分析和数据挖掘等内容,一般是以PDCA为主线,计划牵头,审批在中间,注重把多部门串联在一起。
内容管理类:电子影像、档案、文档和知识管理等。
2.应用功能集成类
□界面集成类:面向内部工作人员进行业务办理的界面集成,一般指内部门户。
□门户网站类:信息类的门户集成,一般指外部门户。
□应用集成类:服务集成类业务,即应用集成平台,注重把多应用串联在一起。
□数据集成类:数据集成类业务,如内部系统之间、跨层级之间,以及与外部门之间的数据集成。
3.2.2 企业私有云建设的总体原则
私有云的建设将遵循以下建设原则,如图3-2所示。
□标准化和开放性
系统的标准化和规范化是信息系统建设基本而又关键的一步,要实现信息通信与共享,必须规范信息技术标准;采用业务内标准的技术体系和设计方法,使系统最大程度地具备各种层次的平台无关性和兼容性;在使用新技术的同时充分考虑技术的国际标准化,严格按照国际和国内相关标准设计实施。
□先进性和超前性
在实用可靠的前提下,尽可能跟踪国内外先进的计算机软硬件技术、信息技术及网络通信技术而使系统具有较高的性能价格比,同时建设方案以实际可接受能力为尺度,避免盲目追求新技术而造成不必要的浪费。技术上立足于长远发展,坚持选用开放性系统,使系统和将来的新技术能平滑过渡。采用先进的体系结构和技术发展的主流产品,以保证整个系统高效运行。
□实用性和方便性
系统建设要以满足需求为首要目标,采用稳定可靠的成熟技术,保证系统长期安全运行;确保系统应用后,确实能为各级业务和管理节点提供一个智能化的网络信息环境,并提高管理水平和工作效率。
□安全性和保密性
遵循有关信息安全标准,具有切实可行的安全保护和保密措施,确保数据永久安全。系统应提供多方式、多层次、多渠道的安全保密措施,以防止各种形式与途径的非法侵入和机密信息的泄露,保证系统中数据的安全。
□稳定性和可靠性
企业私有云建成并投入使用后,将成为支撑业务系统平稳运行的重要平台和开发新业务系统的基础平台,若系统瘫痪,则后果是难以想象的。因此系统必须在可以接受的成本条件下,从系统结构、设计方案、设备选型、厂商的技术服务与维护响应能力、备件供应能力等方面考虑,使得系统故障发生的可能性尽可能少,影响尽可能小,对各种可能出现的紧急情况有应急的工作方案和对策。
□跨平台性和可移植性
由于系统建设的复杂性要求,在设计时要充分考虑系统的跨平台、跨系统、跨应用、跨地区性,以及在各种操作系统、不同的中间件平台上可移植。
□可维护性和可扩展性
系统设计做到标准统一,以便日后的系统维护。在私有云的设计过程中,应充分考虑未来若干年内的发展趋势,具有一定的前瞻性,并充分考虑系统升级、扩容、扩充和维护的可行性。
3.2.3 云管理平台设计
云平台系统的整体架构如图3-3所示,系统分为物理资源层、虚拟资源层、云管理平台层和云计算服务层。
上文提到的服务器资源和存储资源、网络资源等构成了物理资源层,它们通过虚拟化软件形成统一的虚拟化资源,并通过云平台管理系统,将物理设备和系统资源整合为统一的计算资源池、存储资源池和网络资源池,在此基础上根据用户的需求,自动划分资源,在资源管理平台和业务服务管理平台的支持下为用户提供丰富的云服务。
云平台从运维、运营与用户三个层面对私有云进行资源管理和运营管理,如图3-4所示。
云管理平台是一个用来创建云基础架构(IaaS)的平台。云管理平台允许企业在公司内部设立一个服务于企业自身的私有云。当前VMware、Citrix和Microsoft提供的虚拟化平台主要帮助企业的IT人员可以像以前管理物理机一样管理他们的虚拟机。而云管理平台是帮助非IT人员能够通过自服务的方式使用虚拟机服务。
云管理平台包含管理服务器以及业界标准的虚拟化软件(如XenServer、vSphere、KVM等)的扩展。管理服务器可以部署在一台服务器或一组服务器集群上。管理服务器对所有节点上的资源进行统一管理并提供Web接口给管理员和用户,使他们可以对权限内的资源进行访问和操作。
云管理平台系统将要实现的目标包括:
□对本项目建设物理资源、网络资源和虚拟资源,并进行统一的管理。
□由于不同的应用资源处于不同的内网或外网条件下,建设的云管理平台可以跨网络管理。
□纳管已有的物理资源和网络资源。先纳管部分资源,根据使用情况,逐渐将所有物理资源和网络资源纳管进来。
□实现对所有信息资源,包括物理计算资源、虚拟计算资源、物理网络资源、虚拟网络资源的自动化管理。
□云管理平台提供可视、可控、可管的运维系统。
3.2.4 网络资源池设计
云管理平台管理内网(private)、直连网络(direct)和公网(public)的IP分配。管理员首先将可供分配的内网、直连网络和公网IP输入系统。主要有两种网络模型可供创建:直连网络和虚拟网络。
云管理平台的资源域也分为两类:基本网络资源域仅能创建直连无标记(untagged)网络,高级网络资源域除此之外还可以创建虚拟网络以及直连带标记(tagged)网络。
1.直连网络
在直连网络中,虚拟机直接在本地子网中分配IP地址。这些虚拟机可以直接访问Internet,也没有任何NAT(网络地址转换)。它们的网络封包不经过任何虚拟路由器。因此,直连网络无法获得云管理平台中的软负载平衡、防火墙和端口转发等功能。
直连网络的用户根据配置的不同,可以与其他直连网络用户相通或隔离。在直连带标记网络中,管理员对资源域内部的每位用户分配特定的VLAN标识和IP段。用户的虚拟机可以从虚拟路由器(相当于DHCP服务器)获得IP地址。直连带标记网络可以让用户的虚拟机方便地与外界网络互联互通,包括管理服务器。
直连无标记网络则采用了类似于亚马逊的安全组概念以对每位用户进行隔离,而不采用VLAN。所有用户无论账号如何都在同一个广播域内。直连无标记网络常使用在私有云中。所有的Hypervisor类型都可以支持直连无标记网络,但只有XenServer和KVM的节点可以设置安全组。
2.虚拟网络
在虚拟网络中,用户的虚拟机部署于私有虚拟网络中。每个用户的虚拟网络均通过VLAN与其他用户的虚拟网络隔离。每个用户的所有客户机也在自己的VLAN中被分配相应的网络接口。
可以用两种方式建立虚拟网络:基于虚拟路由器和基于外部路由器。
1)云管理平台在安装时就提供了一个虚拟路由器。这个虚拟路由器可以提供DNS、DHCP、网关、NAT、负载平衡和VPN服务。
2)基于外部路由器的虚拟网络使用第三方厂家的路由器设备提供网关和NAT服务,而DNS和DHCP依旧由虚拟路由器完成。
虚拟网络的部署必须使用虚拟路由器或外部路由器。在虚拟网络中,同一个用户的不同虚拟机因为处于同一个VLAN,它们之间的网络通信不通过虚拟路由器。VLAN起到对用户进行隔离的作用:不同账户的用户使用不同的VLAN。
在虚拟网络中,每一个用户会被分配一个外网IP地址,但用户可以申请更多的外网IP地址。外网IP地址是指用户实际访问虚拟机的IP地址。
□通过虚拟路由器建立虚拟网络
每个账户都被分配一个虚拟路由器。所有此账户拥有的外网IP地址也都分配给这个虚拟路由器。这个虚拟路由器是虚拟机和外网通信的管道,并且为虚拟机提供DNS、DHCP以及NAT服务。
虚拟路由器的存在使得云管理平台可以为用户提供很多网络功能。例如:将发送至某个外网IP的包转发至一个指定的虚拟机,或是在多个虚拟机之间进行流量的负载平衡,使得通过有限的公网IP可以提供更可靠的服务。
□通过外部路由器建立虚拟网络
每个账户仍然被分配一个虚拟路由器,但所有此账户拥有的外网IP被分配给外部路由器。外部路由器成为虚拟机和外网通信的桥梁,并提供NAT服务。虚拟路由器仅提供DNS和DHCP功能。负载平衡可以由外部路由器或者虚拟路由器完成。
一个账户可能既拥有在虚拟网络中的虚拟机,也拥有在直连带标记网络中的虚拟机。在这种情况下,这个账户将拥有两台虚拟路由器,一台虚拟路由器负责资源域VLAN的管理,另一台虚拟路由器负责直连带标记VLAN的管理。
在同一个资源域里基本网络不能与虚拟网络或直连带标记网络共存。而一个云环境可能包含一个基本网络资源域、一个虚拟网络与直连带标记网络共存的资源域。
3.2.5 计算资源池设计
计算资源池承载私有云中所有业务系统的计算需求,在进行计算资源池设计时需要注意如下两点:
1)根据先进可用的原则,既要保证整个计算平台的运行稳定,又不能过多地追求高性能,要做到合理选型,合理分配。
2)尽量的利旧,现有可用资源可以根据后续需要设计到整个计算平台中,防止浪费。
在服务器选型方面要符合以下几方面的要求:可靠性、可用性、可扩展性、易用性、可管理性。
□可靠性
衡量服务器可靠性的主要指标是平均失效间隔,发生故障时间越少,服务器的可靠性越高。对于可靠性要求很高的业务来说,即使是短暂的系统故障也会造成难以挽回的损失,所以在服务器的选择上,可靠性为一项重要的衡量指标。
□可用性
可用性是通过系统的可靠性和可维护性等一些指标来度量的。通常用平均无故障时间来度量系统的可靠性,用平均维修时间来度量系统的可维护性。
对易损部件或设备采取保护措施可以提高服务器的可用性,如减少硬件的平均故障间隔时间和利用专用功能机制(如容错、冗余等)在出现故障时自动进行部件或设备切换,以避免或减少意外停机。
□可扩展性
可扩展是指服务器的硬件配置,如内存、适配器、硬盘和处理器等可以在原有的基础上很方便地根据需要来增加。为了保持高可扩展性,通常需要服务器具备一定的可扩展性空间和冗余件(如磁盘柜盘阵位、PCI插槽和内存条插槽等)。
□易用性
服务器的设计应多采用国际标准,机箱设计应科学合理、拆卸方便,可通过指示灯方便地查看服务器的运行状态;可热插拔部件较多,可随时更换故障部件,而且随机配有完善的用户手册,以指导用户迅速、简单地安装和使用。
□可管理性
可管理性是云计算建设中选择服务器时应考虑的重要因素。使用合适的系统管理工具将有助于降低支持和管理成本,可有效监控系统的运行状态,及时发现并解决问题。通过服务器的硬件管理接口和管理软件,可对服务器的性能、存储、可用性/故障、网络、安全、配置、软件分发、统计、技术支持等内容进行监控和管理。
另外,从服务器设备选型和成本方面考虑,建议计算资源池采用x86机架式服务器来替代以往的小型机。
首先,该处理器能力越来越强大,产业链成熟。相对来说小型机的架构有着密闭性的特点,不同品牌的小型机在结构上具有一定的差异性,一旦选择某个品牌,则基本被绑定。而且从小型机的计算性能来说,国外品牌具有一定的垄断地位,国内技术与之相比,仍具有一定的滞后性。随着英特尔推出至强5600、至强7500处理器,x86服务器在计算能力、高可用性、可靠性等方面已经与UNIX服务器不分伯仲。从目前注重节能的趋势来看,随着制程的演进以及架构的优化,新一代的x86产品不仅将具备更高的效能,同时也具备了更低的功耗,对于极端注重省电的系统,也同样有相对应的产品线可供应用,这也是非x86架构难以比拟的。目前,大部分大规模云的构建都基于x86架构,如亚马逊、微软、Google、百度、阿里巴巴等。目前英特尔的处理器对于虚拟化的支持已经落实到芯片级,基于x86平台下的虚拟化是整个虚拟化界的趋势。比如在服务器虚拟化方面,VMware、微软、Citrix等虚拟化软件旨在充分利用服务器资源,而英特尔则从底层芯片上让虚拟化更为智能化。而在存储虚拟化方面,主流高端存储厂商也更加青睐x86架构,x86架构的开放性、标准化、扩展性及日益提升的性能最能代表当前技术的方向,以及满足用户在云计算方面日益多变的需求,所以采用x86架构更为合适。
其次,在x86架构的服务器选择上,目前分为机架式服务器和刀片式服务器。刀片式服务器一般占10U左右的空间,集成14个刀片,集成度很高,但是在扩展性、散热性等方面表现较差,适合于高性能计算等。而且从投入成本角度来看,特别是在不需要满笼刀片的情况下,客户仍然需要为机箱、后备板、交换模块等基础设施投入资金。从网络角度来说,用户的网络环境将被刀箱后备交换模块所“绑架”。而机架式服务器具备更灵活的扩展性,可以根据用户需求,灵活地添加PCI-E扩展模块和进行网络配置。机架式服务器主要有双路和四路服务器,双路服务器多用于应用场景,四路服务器应用于数据库等场景。而60%的双路机架式服务器的市场份额也说明了该种选择所具有的市场代表性。所以在本项目中,计算资源池采用双路机架式服务器。
虚拟服务器系统以x86平台服务器作为基础平台,在基础平台上通过部署云计算虚拟化软件完成资源池化,并根据业务系统的不同需求生成不同配置的服务模板以及虚拟机,部署服务器操作系统及服务器业务应用,对外提供虚拟计算服务。
虚拟资源池中的业务系统可根据规模或安全相关性设定虚拟逻辑域,每个逻辑域内配置不同数量的服务器和存储资源。每个业务系统中的系统、应用等都部署在它的业务逻辑域中的虚拟机上,存储系统则要与其他业务域进行逻辑隔离。每个业务域之间通过防火墙进行隔离,逻辑域内的虚拟服务器之间通过软件负载均衡实现动态负载分配调度。
在整个虚拟资源池(包括每个业务域的逻辑资源池)中,为了保证系统的安全性和连续性,都会预留一定的空闲资源。当整体平台或资源域中的物理服务器或存储节点出现问题,或需要进行必要的硬件升级时,空闲区域即可动态地承载原先资源下的业务系统和存储需要,保证业务的连续性,以及保证整体业务系统运行的稳定性和连续性。
根据业务需求,各应用系统将迁移到虚拟机上,同时还需要预留扩展空间。根据虚拟化原理,最少要有一个物理内核来作为vCPU使用,所以虚拟机的最大数量=物理CPU数量×每个物理CPU的核心数(从可用性方面考虑,不考虑超卖情况),考虑到后续业务的扩展性,要在有限的空间内有尽可能多的虚拟机。同时,需要考虑数据中心的空间成本和电力成本。
3.2.6 存储资源池设计
存储系统是私有云数据存储的基础,用于支撑私有云上各应用对存储的需求。整个私有云对存储的需求具有以下特点:
□先进性原则:技术构成先进,符合信息科技的发展趋势,能适应在当前不同数据平台架构下进行大规模数据存储的需要,保证系统具有较强的开发、使用空间。
□均衡性原则:提供较好的系统运行效率,不产生系统瓶颈。
□节能性原则:绿色环保为营造良好的节能环境,以节能性原则为前提。
□拓展性原则:随着业务规模的扩大可方便地独立升级,能够比较方便地与其他系统进行无缝集成。
稳定性原则:保证系统7×24小时的稳定运行,并能保证重启系统的稳定性。
□安全性原则:有严谨周密的安全体系结构,系统能够提供有效的安全机制,防御各种可能的自然毁坏或恶意攻击,在运行安全、网络安全、数据安全和应用系统安全等方面有合理可靠的策略。
□风险性原则:提供比较成熟可靠的运行管理、监控、故障处理等技术手段,最大限度地降低实施过程的风险。
□经济性原则:设备有较好的性能价格比。
基于此,存储系统需要满足如下几个核心要求:
1)足够的传输能力。网络中心为所有用户提供服务,由于客户端众多、数据流量大,所以整个系统需要很强的传输能力。包括存储系统与服务器之间的大容量、高频率的I/O传输,以及设备内部的总线传输带宽、服务器的网络性能和响应能力等都是非常重要的方面。
2)海量存储能力。大容量的存储系统是网络中心服务应用的核心,拥有一套或多套大容量的存储系统是保证数据安全性和服务连续性的基础。解决方案中不仅需要存储系统具有超大容量,而且硬件的可靠性、容量的灵活扩展、简便的安装/维护管理也是必不可少的。
3)先进的存储架构。存储系统所采用的架构需要是成熟而先进的,能适应未来几年内的技术发展方向。
4)高稳定性和高可用性。解决方案应保证数据安全和随时可用;另外系统数据量大,很难恢复或恢复时间长,而业务又需要7×24小时不间断可用,因此还要为备份系统的建设打好基础。
5)快速的售后服务响应能力。解决方案不仅要满足当前的需要,由于网络对连续性要求很高,因此在售后服务方面也应保证快速响应,一旦出现问题,服务人员能尽快赶到。
另外,存储系统的设计还应遵循可扩展性原则及完整性原则。除了系统硬件要符合技术潮流外,与之相配的软件也须采用先进技术,以利于整个系统的平滑升级。而作为数据存储的统一平台,系统的各项设计应从整体考虑,协调各子系统以构成完整的数据存储管理系统。利用光纤通道技术,SAN可以有效地传输数据块。通过支持在存储和服务器之间传输海量数据块,SAN提供了数据备份的有效方式。因此,传统上用于数据备份的网络带宽可以节约下来用于其他应用。
SAN是在服务器和存储设备之间传输大块数据而进行优化的,因此SAN对于以下应用来说是理想的选择:
□关键任务数据库应用,其中可预计的响应时间、可用性和可扩展性是基本要素。
□集中的存储备份,其中性能、数据一致性和可靠性可以确保企业关键数据的安全。
□高可用性和故障切换环境,可以确保更低的成本、更高的应用水平。
□可扩展的存储虚拟化,可使存储与直接主机连接相分离,并确保可以动态扩展存储。
另一方面,随着虚拟化成为基础架构主要的工作负载机制,数据中心原有的存储设计面临前所未有的挑战。
第一个挑战是存储管理复杂、不灵活。存储一直是虚拟化架构设计中最关键的环节之一。很多性能问题都与存储有关。虚拟化架构师需要了解底层存储设备及其特性,需要在IOPS、延迟和容量等各个方面进行优化。另外存储的分层、扩展和运维都有很多需要考虑的细节。在引入软件定义的存储之前,存储都是在项目开始阶段配置和部署的,在其生命周期中不再更改。如果要求更改虚拟机所利用的LUN或卷的某些方面或功能,则在许多情况下需要删除原始LUN或卷并创建具有所需功能的新卷。这是一项干扰性很强且非常耗时的操作,可能需要花费数周的时间来进行协调。
第二个挑战是费用昂贵。采用外置磁盘阵列,将大幅提高整个虚拟化解决方案的成本。
第三个挑战是无法确保差异化服务等级。由于数据存储选择LUN时并不考虑每个虚拟机的性能和可用性要求,因此难以在存储方面保证不同应用或者不同虚拟机的SLA。在每个卷中包含多个虚拟机文件系统的情况下,很难排除性能问题。
虚拟化数据中心要求存储能够提供新的特征:
□提供虚拟机精确控制
□在应用高度整合的情况下满足性能要求
□数据会自动均衡,无须人工干预
□支持快速调配,零停机操作
□按需动态扩展
□支持VDI和大数据等新应用
□性能可以满足对关键应用的需求
这些新特性是传统存储所不能满足的,因此软件定义的存储应运而生。它从前文提及的三个维度来解决虚拟化数据中心面临的问题和挑战:简化存储的管理、降低总拥有成本、实现端到端的SLA交付。
软件定义的存储可对存储资源进行抽象化处理,以支持存储的池化、复制和按需分发。这使存储层与虚拟化计算层非常相似:都具有聚合、灵活、高效和弹性扩展的特点。它们的优势也如出一辙,即全面降低了基础架构的成本和复杂性。
综合来看,软件定义的存储具备如下三个特征:
□以应用为中心的策略,可实现存储使用自动化
软件定义的存储支持对异构存储池中的所有资源实施一致的策略,使对存储的使用像为每个应用或虚拟机指定容量、性能和可用性要求那样简单。这种基于策略的自动化最大限度地利用了底层存储资源,同时将管理开销降至最低。
□与硬件无关的虚拟化数据服务
数据服务(如快照、克隆和复制)作为虚拟数据服务在软件中交付,并按虚拟机进行调配和管理。独立于底层存储硬件使得这些服务的分配极其敏捷和灵活。
□通过硬盘和固态磁盘虚拟化确保数据持久性
随着服务器功能的增多,软件定义的存储解决方案可让企业利用廉价的行业标准计算硬件来扩大其存储资源。利用固态磁盘和硬盘作为虚拟机的共享存储,可获得高性能、内置的恢复能力和动态可扩展性,并将存储总体拥有成本降低50%之多。
1.分布式存储资源池
分布式存储资源池:由虚拟化计算资源池中的两路服务器提供本地硬盘,利用存储虚拟化软件构建分布式存储系统。为虚拟机提供块级存储服务。
为了保证业务在私有云环境中分布式存储的数据的可靠性,所有虚拟机文件系统均采用3副本方式存储。
2.存储资源池分级设计
存储按照磁盘性能和可用性分为白金、金、银、铜四种级别。四种级别的存储资源的差异在于性能(IOPS、带宽等)及可用性(存储设备类型、磁盘RAID级别、存储级容灾能力等)不同。存储资源按性能和可用性进行分级供给。
白金级存储资源池主要面向对存储有高I/O需求和高可用需求的生产系统应用。白金级存储资源由高端存储设备(具备多于4个控制器,具有存储复制软件等)提供,其磁盘全部由SSD磁盘构成,磁盘的RAID级别应采用RAID10或者RAID5以实现数据的冗余保护,同时使用存储复制软件进行本地或远程的存储级数据保护。建议核心生产系统的Oracle Database Redo Log及热表使用白金级存储。
金级存储资源池主要面向对存储有较高I/O需求和高可用需求的生产系统应用。金级存储资源由高端存储设备(具备多于4个控制器,具有存储复制软件等)提供,其磁盘由SSD磁盘和SAS磁盘构成,SSD磁盘和SAS磁盘的配比不高于1∶10,采用自动热点数据迁移技术实现热点数据在SSD和SAS磁盘之间的迁移,同时使用存储复制软件进行本地或远程的存储级数据保护。建议核心生产系统的Oracle Database数据文件使用金级存储。
存储资源池中金池采用热点数据动态迁移技术,设计要素如下(如图3-5所示):
存储层:第1层为SSD盘;第2层为SAS盘。
热点迁移策略:将热点数据迁移到性能更高的SSD盘上;当检测到某数据块读/写频繁后,根据迁移算法自动迁移。
银级存储资源池主要面向对存储有一定I/O需求的生产系统应用。银级存储可以由高端存储或中端存储设备(具备多于2个控制器)提供,其磁盘由SAS盘构成,磁盘可采用RAID 5、RAID6、RAIDDP等方式实现数据的冗余保护。建议生产系统的可执行程序、日志以及虚拟机系统、非核心数据库使用银级存储。
铜级存储资源池面向对存储容量需求较大的生产系统应用。铜级存储可以由中端存储或者分布式存储设备提供,其磁盘由大容量SATA盘构成,磁盘可采用RAID6、RAIDDP、多副本等方式实现数据的冗余保护。建议备份系统使用铜级存储。
另外通过引入分布式存储技术,还可构建低成本的块、对象、文件存储资源池,来承载备份和归档数据。
3.2.7 如何开始业务的上云迁移
在各企业,许多云迁移成功的案例都是先从一些较为简单的应用开始迁移,然后再一步步把更多的应用和数据迁移到云上。
对于要迁移上云的应用和数据,制定一份详细的计划与时间表是必要的。迁移是一个很复杂的过程,可以先从最简单的应用开始,然后再考虑复杂的、关联度比较高的业务,以及一些个性化的企业应用等。
如图3-6所示描述了企业进行上云迁移的一般步骤,迁移是一个系统工程,从开始访谈调研到环境准备、架构设计和部署实施、优化诊断,以及上云后的验收结项,每一个步骤环节都需要认真对待,迁移过快往往将导致成本的急剧上升、工期延期甚至失败。
上云迁移的过程可以细化为五个步骤。注意这里主要的场景是企业私有云,其总结的步骤也只适用于私有云,对于迁移到公有云并不是很实用。
(1)标准化、虚拟化
企业传统的IT业务应用一般都构建在物理服务器和存储设备上,当开始进行云迁移时,一般会采用标准化技术,对以往的服务器及存储资源进行整合。对已存在的老的要上云的业务进行迁移评估,并根据数据中心的资源情况来制定详细的解决方案是比较重要的;如果是新的应用系统,则分配相应的资源,直接部署在云计算环境中即可。对于任何要上云的业务,对其实现难度的评估是对应用系统进行云化或改造风险与收益评估的重要手段。整个业务系统的云化分析过程需要从包括硬件支撑环境改造、操作系统平台变更、平台软件绑定分析、IP地址依赖性消除、API重构、模块化改造、标准化改造、外部依赖条件等在内的多个层面和维度进行,准确评估业务信息系统云化改造的相关难点与痛点,才能对信息系统云化改造有充分的认识和准备。
当然,虚拟化和架构设计也是上云业务系统进行现代化改造的一部分。上云首先离不开架构设计,因为业务终究要被云化,不管其迁移的过程长短,企业通常都会使用虚拟服务器来代替物理服务器,使用存储资源池来统一后端的存储。为了实现对异构存储设备的管理,往往还会进行存储的虚拟化和分布式改造。当然在这一步,有可能还会涉及业务改造的咨询和方案的论证优化,还必须开始使用脚本或者自动化安装工具来适当减少工作量。
(2)采购或自建及部署云服务
虚拟化是企业上云的第一步,接下来迁移的第二步是部署一套私有的云管理平台。那么是采购还是自建及部署云服务呢?
从云平台的成本和价值来看,VMware是商业软件,其成熟度和稳定性经受了大量实际环境的考验,但使用成本高。相对VMware的昂贵价格,OpenStack免费、开放的优势还是很明显的。相对来说,大型企业采购和使用VMware平台则更稳定和可靠,而使用OpenStack自建从长期来看比较节省成本。
构建一个私有云需要详细地规划设计以及实施,很多时候面临资源整合,也包括管理理念的整合和融入。在这一步也可以采购或使用一些公有云服务,如一个或多个SaaS应用、开发测试服务、云存储等。混合云融合了公有云和私有云,是近年来云计算的主要模式和发展方向。我们知道私有云主要是面向企业用户,出于安全考虑,企业更愿意将数据存放在私有云中,但是同时又希望可以获得公有云的计算资源,以随需扩展,在这种情况下混合云被越来越多地采用,它将公有云和私有云进行混合和匹配,以获得最佳的效果,这种个性化解决方案达到了既省钱又安全的目的。
(3)应用迁移和数据迁移
云的基础设施及服务部署完成之后,需要开始对现有的业务应用服务进行统一化或者升级。如前面所说,这一步可以先把一些较为简单的应用迁移到云中,然后再逐步解决剩下的那些复杂应用。
应用迁移的过程不是简单地点击几个按钮就大功告成,我们需要从云平台的环境特点出发,对自身的产品做一定的适应性调整。比如,是否支持静默安装、磁盘空间的使用和参数设置应该由API还是CLI来完成、跟踪和日志信息通过脚本命令还是平台统一收集等。
云计算数据中心业务应用系统迁移采用平台专用软件并通过P2V实现。P2V技术通过对操作系统实现Volume Shadow Copy,在物理服务器主机系统无修改的情况下,将系统数据、环境配置、应用软件和业务数据整体以“快照”形式导入云平台计算资源池中,转换为以虚拟机方式运行。迁移过程分为系统备份、迁移测试、数据验证和系统切换四个步骤。迁移过程中原有服务器临时中断,待验证新的虚拟机业务应用正常运行后进行系统切换。系统切换前需要停止原有业务应用的对外服务并进行一次数据同步。
迁移主要适用于业务应用的迁移,常见的操作系统大部分可通过迁移方式实现整体迁移。对数据库服务器和迁移失败的应用服务器,采用手动迁移方式进行。手动方式根据迁移系统的操作系统提前部署虚拟机,需要协调业务应用开发单位在虚拟机中通过重新安装应用软件和导入数据方式完成系统的迁移。带有硬件加密狗的业务系统需要协调业务应用开发单位修改软件授权方式后部署到新的计算资源池中。
迁移过程按照网络拓扑和功能分区逐一进行,在保持现有网络拓扑结构基本不变和业务应用不中断前提下,首先完成应用服务器和数据库服务器的迁移,然后完成资源共享业务的服务器迁移。
数据迁移对于一个业务应用来说是最重要的,直接关系到业务上云的成败。数据迁移会将业务系统中很少使用或不用的文件迁移到辅助存储系统(如磁带或光盘)上,而把常用的数据迁移到优质存储(如SSD或闪存阵列)上,类似分级存储管理。通常为了保证数据的安全性和完整性,业务迁移工作一般会与备份策略相结合,并且对重要数据进行重点备份。还有的业务系统上云后把Oracle替换成MySQL,那么就会涉及SQL语法的适配、数据的转换、新老系统的交互、应用的改造甚至重构等,挑战比较大,这些都需要在迁移阶段有充分的考虑。
数据迁移的实现可以分为3个阶段:数据迁移前的准备、数据迁移的实施和数据迁移后的测试校验。基于数据迁移的特点,大量的工作都需要在准备阶段完成,充分而周到的准备工作是完成数据迁移的重要基础。具体而言,要进行待迁移数据源的详细说明(包括数据的存储方式、数据量、数据的时间跨度);建立新旧系统数据库的数据字典;对旧系统的历史数据进行质量分析,以及新旧系统数据结构的差异分析;新旧系统代码数据的差异分析;建立新旧系统数据库表的映射关系,对无法映射字段进行处理;开发、部属ETL工具,编写数据转换的测试计划和校验程序;制定数据转换的应急措施。其中,数据迁移的实施是实现数据迁移的3个阶段中最重要的环节。它要求制定数据转换的详细实施步骤流程;准备数据迁移环境;结束未处理完的业务事项,或将其告一段落;对数据迁移涉及的技术进行测试;最后实施数据迁移。
数据迁移后的测试校验是对迁移工作的检查,数据测试校验的结果是判断一个业务系统能否正式启用的重要依据。可以通过质量检查工具或编写检查程序进行数据校验,通过试运行新系统的功能模块,特别是查询、报表功能,来检查数据的准确性。
当然,保障数据迁移的质量和效率也离不开好的迁移工具。商业和开源的产品各自有不同的特点,选择时还要根据具体情况进行分析。纵观目前国内一些大型项目,在数据迁移时多是采用相对成熟的ETL产品,其实也可以看到这些项目的一些共同点,主要包括:迁移时有大量的历史数据、允许的宕机时间很短、面对大量的客户或用户、存在第三方系统接入、一旦失败所产生的影响面将很广。
目前,许多数据库厂商也都提供相应的数据抽取工具,如Informix的InfoMover、Microsoft SQL Server的DTS和Oracle的Oracle Warehouse Builder等。这些工具在一定范围内解决了数据的提取和转换,但是这些工具基本都不能自动完成数据的抽取,用户还需利用这些工具编写适当的转换程序来提高效率。
再有就是企业的复杂应用由于业务耦合度高,对传统架构依赖性强,一般都需要大量的改造开发,比如你想替换特定的中间件和数据库及商业套装软件,可能需要几年的时间来完成该步骤。由于时间周期比较长,不可控的风险太多,因此需要谨慎地对现有系统从投资回报以及可行性方面进行详细迁移评估。
(4)全面自动化
在企业中,当大量业务应用都迁移上云后,使用云管理平台进行业务系统的自动化配置、审批、服务交付、升级改造及监控就变得比较重要了。不断地对现有IT流程进行自动化改造至关重要,我们希望尽量把每一个业务上云的流程都自动化,从虚拟机及应用的线上资源预订到其交付,这样可以大大缩短部署时间,减少人工成本,提高系统配置的准确性及一致性。虽然在标准化和统一化阶段就已经开始进行基本的自动化了,但到了全面自动化阶段则需要把大量的脚本、应用安装程序、自动化工具引入一个流程编排系统,在该系统中使用云管理平台进行服务及工作流的设计。
(5)安全性、冗余性及运维可持续性
传统业务上云一般需要经过资源供给、交付服务、运维及安全流程等若干环节的审批,因为在云服务完成及上线之前,很多流程都需要进行改造,自动化交付则需要IT安全人员对虚拟机模板、软件化网络、存储资源、操作系统、应用平台等预先进行授权或批准。该阶段还需要考虑冗余性及伸缩性,包括服务器、虚拟机、应用及云管理平台在数据中心部分或者完全失效的情况下的可持续运行能力。安全操作及IT治理在该阶段也必须完全建立,最终这五个步骤的云迁移计划将把公司带到一个全面云运维的状态。
业务上云是一个复杂系统的工程,无论是旧的应用还是构建新的应用,迁云团队都需要仔细考虑成本与运营是否与平台模式匹配。从现阶段来看,应用分阶段迁移可能是唯一的选择。目前一些公司已经成功地用这种分阶段方法改变了他们的传统应用,并使风险最小化的同时受益于云计算,这也许是未来一段时间云化的主题。
3.2.8 设备的利旧
设备利旧是云计算中心建设方案的重头戏,好的方案设计可以提高用户原有设备的利用效率。利旧可分为两部分,一部分可加入资源池,为应用提供服务;另一部分较旧的设备可以作为应用冷备份、数据备份管理端、平台管理端来使用。
为了避免现有设备投资浪费,原有服务器、存储设备利旧方案主要包括:
□服务器利旧
原有部分高端服务器可纳入云技术平台的服务器资源池中,作为生产资源利用;原有的中低端服务器,若能够支持硬件虚拟化技术,可作为资源池测试环境使用。
□存储设备利旧
除了配置过低和使用年限已过保的设备以外,其余均可由云技术平台的存储虚拟化控制器纳入统一的存储资源池中,根据需求作为生产或测试环境使用。
3.3 小结
本章从企业私有云建设的需求分析开始,结合私有云的规划设计和业务上云迁移等方面,阐述了企业私有云建设在具体场景中的设计与问题,以帮助读者更好地理解企业私有云建设。