随着计算机的普及、网络的飞速发展,IT基础设施成为很多企业业务的重要支撑系统,信息安全从最初的信息加密与入侵防护技术,发展到防护与监控的信息安全防护体系(花瓶模型);“911”事件之后,业务审计、系统容灾等技术把信息安全推进到业务安全---安全领域的一个新台阶。
业务安全是思路是把IT系统提供服务的业务提高到IT的管理的理念中来,比较有名的标准实践是ITIL,但比较系统地提出业务安全,BCM提供了全面的解释。从IT管理的工作人员的角度可以说是一个质的不同:
² 任何一个企业与单位都有自己的主营业务,主营业务体现了企业存在的价值,IT部门对一个企业来说,从开始时就是一个附属的支持部门,计算机不过是人们办公工具的一种,网络不过是电报、电话之后的一个新型通讯方式。即使某些企业的业务几乎全部是靠网络来支撑,比如银行、证卷、设计企业、网上游戏与B2C商家…IT仍然是业务部门的服务提供部分。若要进入到业务的安全领域就不同了,安全设计是业务流程设计与日常管理的必备部分,IT的管理与业务的规划同时进行,IT部门成为利润的创造者,成为企业的“生产线”,CIO成为企业的核心管理者之一。
² 业务安全让网络服务于企业业务成为IT第一目的,IT部门就成了工厂的“生产线”、商场的“销售柜台”、企业的管理“神经”,IT部门不再是企业的成本中心,而是利润中心,是企业的生产部门,IT部门的管理不善,对企业的市场竞争是直接的打击。尤其在很多企业实行“数据大集中”之后,企业数据就是一笔巨大的财富,对企业数据的挖掘与分析,成为现代企业管理决策的有效支撑。而这个支撑没有IT部门是不可能做到的。
业务安全保障的建设不再只是IT部门的内部业务,而是整个企业发展、方向性的规划,所以随着IT部门地位的变化,对IT服务人员的素质要求也在提高,只熟悉计算机与网络的“专家们”,不学会与业务人员“沟通”,对业务的发展不敏感,都不能再适应企业对IT管理人才的需要。计算机与网络是企业发展的工具,作为工具就一定要为企业创造价值才会真正发挥其工具的效益。
业务安全技术是从信息安全技术发展起来的,增加了业务服务的保障,尤其是在系统故障、灾难情况下的服务提供,而不单单是信息的安全。BCM考虑的业务服务中断有灾难,也有系统的故障,外部的入侵与病毒的发作。
从统计的数据来看,在业务安全设计时,系统本身的故障占58%,所以BCM的重点是系统故障的防范与应急处理,灾难管理只是BCM的一个极端情况,灾难恢复DR是BCM的一个组成部分。我们把它归结为天灾与人祸,人祸对业务的总体影响要大很多。
另外,BCM的要点不仅是对业务中断的防御部署,还把业务中断的恢复提到重要的位置上来,消除故障源是重要的,否则同样的中断可能还来第二次,但业务的恢复是企业继续生产的前提,业务先恢复,再逐步消灭故障源是BCM的思路,所以BCM在应急处理中、重点是业务延续服务方面,而传统的安全保障在应急的处理中更关心故障点的排除。所以安全保障是BCM的一个方面,但不是全部。
下面是BCM学习的一些总结:
BCM(Business Continuity Management)业务持续性管理,是一套综合管理体系,它着眼于对各种潜在灾难和危险进行分析,并建立一套完善的业务持续计划(BCP)来防止或减少灾难事件给企业带来的损失。BCM涉及企业的销售、生产等过程,所以不仅是故障、灾难带来的威胁,而且对生产、销售流程的支撑也在BCM的考虑范围内。
ITDR(IT灾难恢复)是BCM的初步阶段。BCM是一个管理机制、一套完整的体系。目前大家关心的主要是数据备份与异地容灾。但BCM不等于灾难恢复。灾难是小概率事件,而人为的误操作与系统本身的故障造成的业务中断不是小概率事件。
BCM一般定义为12个模块:风险管理、应急管理、IT灾难恢复、设备管理、供应链管理、质量管理、环境管理、危机管理、知识管理、人力资源管理、安全管理、沟通和公关管理
BCM成为应对危机事件的国际通用规则,管理上分为几个方面,综合描述为:
² 业务持续规划BCP:确保业务运营的维护或恢复
灾难恢复DR:是BCP的技术部分或信息技术部分
² 紧急应对规划ERP:针对具体威胁定制应对计划
² 事件及危机管理ICM:有组织地应对严重事件与危险
BCP计划编制过程
1、 项目管理:作为项目立项,并组织团队
2、 营运冲击分析BIA(业务影响分析):认明不可控、非特定事件给机构的营运流程及客户带来的潜在冲击。最长停工期-恢复时间目标RTO
3、 缺口分析:即用机构现有的与所需的BCP相比较,以实现恢复时间及关键目标
4、 计划文件:维护、继续及恢复关键业务职能和过程的文件战略和程序
5、 测评:借由测评、独立评审和定期更新确保业务持续计划可行
6、 维护:计划应由高管人员、规划团队或协调官、团队成员、内审人员、董事会至少一年审一次
企业BCP的实施的战略策略:
1、 自建:系统自己建设、自己管理,针对业务保障,方便业务扩容或修改。
2、 外包:利用专业的容灾公司,自己专注于核心业务,提高运行效率。
建立业务持续性解决方案的一般过程:
在建立业务连续计划中,需要考虑的关键流程:灾难信息通知流程、灾难界定与决策流程、紧急应对和业务切换流程、紧急运行管理流程、系统恢复与业务切换流程…
业务持续性方案实施过程:
1、 分析阶段:实施IT系统的灾难风险评估和业务影响分析,建立容灾系统的可行性分析,制定RTO与业务持续战略
2、 开发与设计阶段:分析IT系统的硬件、软件环境、数据备份情况与链路情况,分析应用软件的环境与要求,提出数据复制方法,提交容灾方案。并进行客户访谈,了解IT容灾组织架构,设计恢复流程。
3、 安装、配置系统阶段:系统的安装与调试。组织人员培训,编写各种流程与恢复计划,并制定成为手册与指南。
4、 测试、演练阶段:演练是容灾系统不可缺少的验证、培训阶段,让IT容灾团队熟悉流程与业务,备份系统切实有效。
5、 后期系统评估与服务阶段:容灾系统的状态需要长期的维护与评估,保证业务恢复时的紧急调用。
BCM理解的六个误区:
1、 一项恢复计划适合多种情况,而不管事件或风险的类型:把业务连贯性与恢复方案理解为一种“模块”,对应于不同风险与灾难。模块可以重用到不同业务连贯性方案。
2、 仅由IT人员进行规划与测试就够了:采用集成式方法。在制定、测试及执行时,纳入IT与业务部门,从BIA开始。BIA是重要步骤,他要交付:
a) 恢复时间目标RTO:一项灾难发生的时间与业务流程必须被返回到生产模式中的时间之间的时间长度
b) 恢复点目标RPO:在一项灾难发生后在这个位置必须恢复数据的业务流程中的点位;例如业务时间的开始,最后的备份、或者是被处理的最后交易等
c) 宕机的成本:业务部门应计算产生的潜在损失,同时作为灾难的结果以及重新创建失去的数据。
3、 更长的距离意味更好的灾难保护:距离长意味链路成本与风险
4、 远程数据拷贝中最重要的问题是使数据损失率保持最底水平(RPO)。RPO处于最低水平对于某些应用来说很关键,但更为重要的是确保恢复站点上数据的连贯性与完整性。如果恢复站点上数据不连贯,就需要耗时的诊断与恢复流程,若从离线介质中恢复,恢复时间一般很长,并且使业务处于风险中。在可接受的时间内进行数据恢复的速度对确保RPO十分重要
5、 在恢复站点上映像数据的一份拷贝就够了。若同步远程拷贝被推迟(如链路故障),但主系统业务依然在进行,对恢复站点的数据更新就要按次序发送,此时要启动主备系统的再同步过程,直到赶上到主系统的目前状态。这时发生灾难,数据则超过系统设计的损失。方法是在恢复站点上建立两份拷贝:一个是主拷贝与一份是时间点的拷贝(变化数据的快照)。出现再同步时发生灾难,主拷贝数据不连贯,但时间点拷贝包含最后的连贯映像。在临近灾难的时间中,可能备份的数据会不可用,但时间点拷贝可以随时制作新的本地拷贝
6、 规划中的带宽应超过峰值数据传输要求:确保同步远程拷贝中的带宽超过峰值传输要求,对异步拷贝,达到平均活动的带宽就足够了。
本文转自 zhaisj 51CTO博客,原文链接:http://blog.51cto.com/zhaisj/52382,如需转载请自行联系原作者