一、 应急响应是什么?
应急响应是指针对潜在的网络安全事件,为了保障现有业务系统的稳定运行,而采取的应对措施。
例如,当防火墙硬件故障时,无应急响应的做法,通常是找对应的产品提供商提供新的设备,并将设备重新调试上线。其中,供应商发货需要一到两天的时间,重新调试也需要一定的时间,效率较低。
而已有应急响应的做法,会对防火墙的配置进行定期备份,并购买相同配置的防火墙。当故障发生时,将最新的配置更新到新的防火墙,并替换故障设备,即可恢复,大大降低了故障对业务系统的影响。
基于这个出发点,对可用性要求比较高的业务系统,往往会采用双机热备。
正常工作时,两台设备互为主备,并通过路由设置,可实现负载均衡,避免资源闲置造成浪费。
当其中一个设备故障时,流量自动毫秒级的切换到另外一台设备,确保了业务系统的持续稳定运行。结合监控系统对故障设备进行报警,通知管理员及时关注并修复故障设备。
这大大提升了恢复的效率,有效的避免了单点故障,自动化的实现应急响应。
二、 应急响应应该怎么做?
(1)建立组织
在企业内部建立起由管理人员和技术支持人员组织而成的应急响应小组,其中管理人员负责沟通协调企业资源,技术支持人员负责具体应急工作的实施。
(2)明确任务
应急响应小组,主要任务为:
事前预警,应急事件发生前,对安全事件进行监测预警,编写应急响应方案(应急响应方案的执行步骤应尽可能的详细,责任人和执行人需明确),并进行相应的应急准备(备份数据、配置等);
事中响应,执行应急响应方案;
事后总结,对安全事件进行总结分析,并完善应急响应方案。
(3)参考样例
事件:针对防火墙硬件故障,应急处置方案。
事前预警:
A. 通过监控软件对防火墙的状态进行24小时探测,当发现防火墙离线时,自动通知应急响应小组;定期,或配置更新后,对防火墙配置进行备份。
B. 综合考虑服务中断的承受时间范围与设备成本,评估是否事先购买新的防火墙
C. 设计详细操作流程的应急响应预案,包括具体的操作步骤,执行人员姓名、电话、住址以及有关职能部门等。
事中响应:对报警事件进行确认,以及是否启动应急预案,确认启动预案,则按照应急预案流程执行恢复工作。
事后总结:对安全事件进行总结分析,并完善应急响应方案。
三、 阿里云“安全应急响应服务”
主要由第三方合作伙伴为阿里云的客户提供安全事件处理服务,包括黑客入侵、网页挂马、主页篡改、后门植入等等。当企业现有的应急预案无法对业务系统进行恢复,且确认存在网络攻击事件时,可以选择此服务。
此外,仍需对业务系统的重要数据进行备份,建议采用快照的方式,周期对整个系统进行备份,并通过控制快照的整体数量,在确保数据备份的前提下,降低快照的成本。