数据中心的中断问题持续困扰着IT人员。执行数据中心调试或审计,拥有坚实的电源设计,以保护您的组织免受宕机影响。
在其他众多知名公司之上的美联航、达美航空和西南航空公司—最近遭受了主数据中心的中断。而他们的过于公开的关机处理又给IT管理人员的问题清单上增加了另一项烦恼。
据报道,许多这些数据中心的事故是由于电力故障引起的,这并没有很出乎意料。根据Uptime Institute的研究,发动机发电机系统是数据中心主要的电力来源,应采用公用事业电力作为经济的选择。然而,公用事业电力中断“并不被认为是一种故障,而是一种预期的运行状况,相关站点必须做好准备。”
换句话说,大多数企业数据中心都可能会发生这样的电源中断。对于在其职业生涯之中担心这种事情的CIO来说,这可能是资助部分所需改进的机会。但是,请注意:简单地增加冗余设备并非解决之道。
关键任务数据中心电源设计的挑战
企业数据中心最大的漏洞是隐藏的缺陷和安装错误。简单地复制设备和真正的关键任务的设计之间的差异是巨大的。然而,为潜在的故障点检查数据中心电源设计是一个艰巨的过程。考虑聘请高素质的独立专家为您的组织执行此任务。
您可以通过设计和安装来不断审视全新或更新的设施,但另一个问题是在现有设施在使用过程中进行漏洞补救。当您纠正漏洞时,您对操作的公开可能导致事故。但是,即使您不进行风险更正,需了解潜在的故障可能在哪里,以尽量减少数据中心中断的风险。
并不安全的备用电源
记录最详尽的电力故障中断之一发生在旧金山的365 Main。该公司拥有冗余不间断电源(UPS)系统和发电机,以满足客户对不间断供电的期望。但是在2007年7月24日,墨菲法案(Murphy's Law)不请自来。
首先是电源故障。数据中心的UPS保持供电,直到发电机启动。但是不久之后,这些发电机一个接一个地关闭,造成数据中心中断,这几个小时影响了公司的高阶客户。
尽管数据中心拥有坚实的电力系统设计,但数据中心运营商并没有通过调试测试来揭示发电机控制中的问题—固件。相比于反复测试故障和在负载下重启发动机,管理员选择依赖于备份电源和冗余的虚构的安全性。
许多现代UPS系统可以指示服务器在电池寿命降到预设阈值以下时开始受控停机。虽然(此方法)不是很理想,但实现此功能远比在重新启动时遇到严重问题要更好。
如果您可以修复漏洞,请制订详细的计划,了解如何解决此漏洞,以及如何处理补救过程可能导致的潜在故障。例如,如果管理员发出火灾报警器,应该有人与他一起处理这种情况,并避免倾倒气体防火系统和自动停机。并且,如果计划在工作期间关闭火灾报警器,通知设施,安全和消防部门,并确保有人用便携式灭火器待命。如果存在冷却故障的潜在可能,则计划启动选择性停机以减少热负荷并放置便携式空调作为预防措施。
通过调试尽可能减少数据中心的中断风险
即使数据中心电源设计是完美的,仍然可能会出现错误,管理员只能通过调试来识别。 调试代理不仅查看安装的正确性,并验证正确的设置和调整,但也可能会尝试破坏系统。要完成测试,代理使用一组脚本,在模拟条件下运行基础设施系统,并关闭各种元素,就好像它们发生故障一样。
调试过程还包括负载下的总电源关闭,并且可能会在单个设备中引入额外的故障,具体取决于用于设计意图的可用性级别。该过程还应识别不清楚的标记和无保护或难以达成的关键控制,例如关闭电源紧急按钮没有保护盖和警报不响。
对于新设施来说,在设计开发阶段开始投产。如果您使用独立的调试代理,在完成项目设计之前,请确保代理识别并补救出大部分的潜在缺陷。这不仅减少了数据中心中断的可能性,而且避免了大规模更改订单成本的潜在可能。
在现有的数据中心,多次关机来查找问题是过于危险的,这是说完全意义上的调试是无法实现的。在这种情况下,请考虑使用数据中心审计,其中涉及到关键系统的设计审查和现场测量、测试和检查等的组合过程。虽然它不会暴露每种潜在的情况,但它可以暴露绝大多数的漏洞,并为实践中提供补救的办法和路径。
本文作者:Robert McFarlane
来源:51CTO